Ankündigung

Einklappen
Keine Ankündigung bisher.

500 html Seiten durchsuchen

Einklappen

Neue Werbung 2019

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • 500 html Seiten durchsuchen

    Hallo community,

    ich bin neu hier und wollte erstmal hallo sagen

    Jetzt mal zu meinem Anliegen. Ich habe mit mit HTTRack eine Seite (inkl. Unterseiten) runtergeladen. Dies ergab 500 html-Datein. In diesen dateien möchte ich jetzt nach bestimmten Wörtern suchen und das Ergebnis in eine einfache txt-Datei speichern.

    Hier mal ein Beispiel:
    In jeder html-Datei steht "Marke" und dahinter der Name die Marke.
    In jeder html-Datei steht "Adresse" und dahinter eben die Adresse der Marke...
    Jetzt sollen alle 500 html-Dateien ausgelesen werden und in der Form in einer txt-Datei gespeichert werden:
    Marke: "der ausgelesene Markenname"
    Adresse: "die ausgelesene Adresse"
    ... : "..."
    usw...

    Gibt es sowas im Netz oder muss man das selber irgendwie zusammenklöppeln??

  • #2
    Das was du möchtest ist Urheberrecht mit Füßen treten.
    [URL="https://gitter.im/php-de/chat?utm_source=share-link&utm_medium=link&utm_campaign=share-link"]PHP.de Gitter.im Chat[/URL] - [URL="https://raindrop.io/user/32178"]Meine öffentlichen Bookmarks[/URL] ← Ich habe dir geholfen ? [B][URL="https://www.amazon.de/gp/wishlist/348FHGUZWTNL0"]Beschenk mich[/URL][/B].

    Kommentar


    • #3
      oder du möchstet sinnlos abmahnungen verschicken; find ich genauso (...).

      Kommentar


      • #4
        Moin,
        mittels PHP kannst du über "scandir()" zusammen mit "fileinfo()" und mittels "file_get_contents()", sowie "substr($string, $start, $ende)" und "strpos($string, $such_string)" genau das erledigen, was du machen willst

        mittels scandir() scannst du den Ordner nach allen Dateien, die darin enthalten sind. Mit fileinfo() erhälst du Informationen über die Datei (name + extension usw. Als Erweiterungen habe ich hier im Forum eine "scan_dir()" funktion gepostet, einfach mal bei meinen Beiträgen nach "scandir()" suchen).

        Mittels foreach() Schleifen gehst du dann jede Datei durch.

        file_get_contents() lädt den Inhalt der kompletten HTML Seite in einen String.
        mittels
        PHP-Code:
        if( strpos($datei'Marke') !== false ) {
           
        $marke substr$datei$strpos$datei'Marke') );

        (Diese Methode verbraucht "viel" Speicherplatz, wenn die Markennamen niemals länger als n Zeichen sind, so ist "$marke = substr( $datei, $strpos( $datei, 'Marke'), n );" effizienter )

        $marke enthält inklusive "Marke" alles, was danach folgt. Nun fehlt der "$ende" Integer, d.h. die Position, an dem der Markenname endet.

        Hierbei solltest du die HTML Dateien nochmal dahingehend analysieren, ob bestimmte Werte hinter der Marke stehen, sodass du auch danach als Suchende suchen kannst. Das Problem ist: Die Markennamen sind unterschiedlich lang, daher macht ein Konstanter Wert keinen Sinn. Du brauchst also irgend einen spezifischen Wert, der direkt oder im konstantem Abstand dahinter folgt. Häufig ist sowas wie "Marke: Markenname Titel:..." in der Reihenfolge gelistet. Du kannst dir auch mal den String "$marke$ auf dem Bildschirm ausgeben lassen, z.B. durch:
        PHP-Code:
        echo substr$marke0100); 
        (ersten 100 Zeichen des Strings $marke. Ggf. sind hier Zeichen, wie "/n" oder "<br>" zu sehen ..)

        Hast du ein Ende gefunden, kannst du nun durch
        PHP-Code:
        if( strpos($marke$end_string) !== false ) {
           
        $marke substr$marke$strpos$datei0$end_string) );

        Die Marke isolieren und dann verarbeiten. Z.B. durch
        fopen() mit "a+"

        fwrite()

        fclose()

        in eine Datei eintragen.


        Auf analoger Weise kannst du das natürlich mit jeder Programmiersprache lösen. Ob es dafür fertige Lösungen gibt, glaube ich ehrlich gesagt nicht. Jedes Suchprogramm sucht für dich das Vorhandensein des Strings "Marke", gibt dir allerdings nicht den Inhalt dahinter aus. Ich kenne keins, hat aber auch nichts zu heißen

        Viele Grüße

        Kommentar


        • #5
          Erst einmal danke für die Antworten.

          Für diejenigen, die über mich schimpfen:
          Die Daten sind doch sowieso für JEDEN öffentlich sichtbar. Jeder kann sie ansehen, kopieren, benutzen etc... Und nur weil ich zu faul bin, mit der Maus immer "rechtsklick - kopieren" und "rechtsklick - einfügen" zu drücken, bin ich ein böser Mensch?

          @shalec: Danke für die ausführliche Beschreibung. Ich werde mich dann mal ranmachen und ein bißchen testen...

          Kommentar


          • #6
            //OT:
            trotz der fehlermedlug wurde mein beitrag übernommen ?
            Shalec ich würde es anders machen: wieso du dem TE allerdings eine lösung präsentierst, zumahl ein rechtsbruch offensichtlich, bleibt für mich fraglich.

            Kommentar


            • #7
              Offtopic: Der Fehler in diesem Thread beim Posten einer neuen Antwort wurde soeben behoben. Sorry dafür.

              Kommentar


              • #8
                Zitat von Bockwurst Beitrag anzeigen
                Die Daten sind doch sowieso für JEDEN öffentlich sichtbar. Jeder kann sie ansehen, kopieren, benutzen etc...
                Kann ist ungleich darf. Und wie heißt die alte Weisheit: Unwissenheit schützt vor Strafe nicht

                Ich glaube nicht dass der Betreiber einer Seite möchte, dass seine Daten (die er u.U. aufwendig zusammenstellen musste) einfach mal eben von Dritten anderweitig verwendet werden. Im Idealfall holst du dir vorher die Erlaubnis vom Seitenbetreiber.
                [SIZE="1"]Atwood's Law: any application that can be written in JavaScript, will eventually be written in JavaScript.[/SIZE]

                Kommentar


                • #9
                  Internetseiten sind per se durch das Urheberrecht des Landes verbindlich geschützt solange die juristische Person im Imprint vermerkt wird / wurde. Eine Angabe über das Copyright ist in keinem Land notwendig. Die traditionellen "Copyrights" (©) waren früher ( bis 1988/89 ) mal verbindlich, heute dienen sie nur einem Zweck: Hinweisen wann, wer das Urheberrecht in Anspruch nimmt.

                  Wenn du also eine Internet-Seite grabben gehst ohne dass das explizit auf der Seite irgendwo erlaubt wurde, brichst du das Urheberrecht.
                  [URL="https://gitter.im/php-de/chat?utm_source=share-link&utm_medium=link&utm_campaign=share-link"]PHP.de Gitter.im Chat[/URL] - [URL="https://raindrop.io/user/32178"]Meine öffentlichen Bookmarks[/URL] ← Ich habe dir geholfen ? [B][URL="https://www.amazon.de/gp/wishlist/348FHGUZWTNL0"]Beschenk mich[/URL][/B].

                  Kommentar


                  • #10
                    Ich wage zu behaupten, dass das grabben und die Verwendung bzw. Speicherung der Daten etwas unterschiedliches ist.
                    [URL="https://github.com/chrisandchris"]GitHub.com - ChrisAndChris[/URL] - [URL="https://github.com/chrisandchris/symfony-rowmapper"]RowMapper und QueryBuilder für MySQL-Datenbanken[/URL]

                    Kommentar


                    • #11
                      Wer grabbed denn bitte eine Seite ohne die gewonnenen Daten in irgendeiner Form zu verwenden oder zu speichern ? Technisch geht mit dem grabbing eine Speicherung ( zumindest Arbeitsspeicher ) einher. ChristianK
                      [URL="https://gitter.im/php-de/chat?utm_source=share-link&utm_medium=link&utm_campaign=share-link"]PHP.de Gitter.im Chat[/URL] - [URL="https://raindrop.io/user/32178"]Meine öffentlichen Bookmarks[/URL] ← Ich habe dir geholfen ? [B][URL="https://www.amazon.de/gp/wishlist/348FHGUZWTNL0"]Beschenk mich[/URL][/B].

                      Kommentar


                      • #12
                        Dann ist also Googles crawler Technik auch verboten?!

                        Kommentar


                        • #13
                          Zitat von derwunner Beitrag anzeigen
                          Dann ist also Googles crawler Technik auch verboten?!

                          Per Urheber-Gesetz, strenggenommen nein, aber das geht mittlerweile auf ganz andere Ufer über. Allerdings macht das Internet ( heute ) wenig sinn ohne Suchmaschinen wie Google. Das Google auch vor aggressiveren web grabbing / web crawling nicht scheut kann man hier nachlesen: https://www.steigerlegal.ch/2013/04/...suchmaschinen/

                          Die "Grauzone" Suchmaschine steht irgendwo zwischen "Gedulded bis via robots.txt / ACAP verboten" und "Wir machen das, weil Internet sonst doof". Das ganze ist auch irgendwo Sinnvoll bis man das spezifisch international regeln kann, so bspw. republishing verbietet. Ohne Suchmaschinen würdest du auf keinen grünen Zweig kommen im Netz der Netze, dass man dafür auch erdulden muss Content XY und Bild 123 indizieren ( crawlen ) und erneut veröffentlichen ( grab and republish ) zu lassen, erklärt sich zwar von selbst, geschieht im Nachhinein allerdings von selbst ohne deine Entscheidung. Immerhin produziert eine Suche bei "Nicht-Speicherung" von Milliarden Menschen auch nicht gerade wenig Traffic wenn es eine Such-Technologie gäbe die ohne auskommen würde.

                          Was Google "rechtsverbindlich" darf und was nicht, entscheided deine robot.txt oder ACAP-Rules bspw. nicht ( und diverse andere html-attribute ), denn die sieht der Gesetzgeber nur als Konvention an. Juristen die man im Netz darüber schwafeln hört bringen da auch gerne das "Kein Sinn wenn nicht"-Argument und Pauschalisieren das Thema auf die Notwendigkeit einer Indexierung eines Werkes ( egal ob in die digitalen Medien überführt oder extra dort / dafür erstellt ) und das dadurch kein Schaden enstehen könnte ( was nich in jedem Fall so ist ).

                          Die Wayback Machine ist noch das selbe Thema und Quasi Google 2.0, die Server mirrorn URLs, was per definition content grabbing und Wiederveröffentlichung ist, ganz ohne dein Einverständnis, vollautomatisch.
                          [URL="https://gitter.im/php-de/chat?utm_source=share-link&utm_medium=link&utm_campaign=share-link"]PHP.de Gitter.im Chat[/URL] - [URL="https://raindrop.io/user/32178"]Meine öffentlichen Bookmarks[/URL] ← Ich habe dir geholfen ? [B][URL="https://www.amazon.de/gp/wishlist/348FHGUZWTNL0"]Beschenk mich[/URL][/B].

                          Kommentar


                          • #14
                            Zitat von tr0y Beitrag anzeigen
                            Wenn du also eine Internet-Seite grabben gehst ohne dass das explizit auf der Seite irgendwo erlaubt wurde, brichst du das Urheberrecht.
                            Ja und? Hat der TE gesagt, dass es nicht erlaubt wurde? In einigen Fällen IST es erlaubt und in anderen Fällen ist es Dank fehlender API auch nicht anders bewerkstelligbar (Was ist z.B. wenn er die Erlaubnis des Autoren bekommt?).

                            Das Unterfangen kann legal sein, da jetzt mit Unterstellungen gegenüber dem TE anzukommen, Schlagworte zu bringen die nicht unbedingt passen oder Themen klären zu wollen die im internationalen Umfeld sehr komplex geregelt sind halte ich für überflüssig. Ein Hinweis darauf die Rechtslage zu prüfen sollte ja ausreichend sein.

                            Was "automatisches" kann mal wohl schlecht empfehlen, weil es wohl nichts gibt, dass die Daten dann genauso in der Form aufbereitet wie du es gerne hättest. Wie du das machen kannst wurde ja schon erwähnt.

                            Kommentar


                            • #15
                              Offtopic:
                              In jeder html-Datei steht "Marke" und dahinter der Name die Marke.
                              In jeder html-Datei steht "Adresse" und dahinter eben die Adresse der Marke...
                              Zitat von http://www.php.de/forum/l%C3%B6sungen-durch-skripte/scriptb%C3%B6rse/47439-angaben-zum-beitrag-suche-oder-angebot
                              Dazu wurde ein Menü vor dem Titel des Beitrages gesetzt, von dessen Auswahlmöglichkeit ihr doch bitte regen Gebrauch machen solltet.
                              Die Angabe, ob es sich um ein Angebot oder eine Suche handelt, wird dem Leser dann in der Forenansicht angezeigt.
                              ich gehe mal aus, dass es sich um eine Suche handelt.
                              wegen der oben zitierten spezifikation kann ich nur ein kommerzielles unterfangen erkennen. mE. sollte man sich entweder davon abgrenzen, oder entsprechendes backend in aussicht stellen.

                              Kommentar

                              Lädt...
                              X