Ankündigung

Einklappen
Keine Ankündigung bisher.

Domain Crawlen - Neue Unterseiten erfassen

Einklappen

Neue Werbung 2019

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Domain Crawlen - Neue Unterseiten erfassen

    Hallo zusammen,


    ich habe bereits ein Programm geschrieben, das eine Website crawlt. Ich gebe dem Programm eine Hauptdomain und es erstellt mir daraufhin eine Liste mit sämtlichen Unterseiten, basierend auf die interne Verlinkung.
    Bei dem Prozess wird erst die Hauptseite, dann nacheinander alle Links in der erstellten Liste abgearbeitet und so erweitert.
    Ist eine Seite also nicht im Source-Code der Hauptwebsite oder Unterwebsite, wird sie auch nicht gelistet. Das ist für mein Vorhaben aber nicht weiter tragisch.
    Ich möchte gerne eine kleines Hobby-Projekt umsetzen, bei dem ich eine Website, wie z.B. ein Nachrichtenportal, regelmäßig nach neuen Inhalten abfrage, die Wörter zähle und das Ergebnis in einer Datenbank speichere.

    Welche Möglichkeiten kennt ihr, um das Delta an Unterseiten einer Website heraus zu finden?

    Mein Lösungsansatz:
    1. Anfangs war der Plan jeden Tag ein Crawling zu machen und durch den Vergleich von letztem zu neuem Crawlen die neuen Seiten zu finden.
      Ich kann ein Nachrichtenportal jedoch nicht jeden Tag komplett crawlen, die haben teilweise mehrere 100.000 Unterseiten wobei fast alle alt sind.
    2. Eine andere Möglichkeit wäre nur die Hauptseite der Nachrichtenportale zu crawlen und da den Bereich der neuen Artikel heraus zu filtern. Allerdings werden da auch nur die meist gelesenen Verlinkt statt alle neuen.
    3. Eine letzte Möglichkeit sehe ich darin die Menüpunkte aufzuschlüsseln und anschließend wie in Punkt 2 beschrieben zu verfahren. Das wiederum macht aber sehr viel Pflegeaufwand da sich auch mal ein Menüpunkt ändern kann.
      Außerdem splitten sich die Menüpunkte in vielen Untermenüpunkte auf, die ich dann einzeln zum crawlen angeben müsste.
    Alles nicht so optimal, daher die Frage an euch.

    Danke schon mal Vorab für eure Antworten
    Gruß
    Franke


  • #2
    Ich würde einfach den RSS-Feed abfragen und fertig. Wozu der ganze unnötige Aufwand?

    Kommentar


    • #3
      Zitat von hellbringer Beitrag anzeigen
      Ich würde einfach den RSS-Feed abfragen und fertig. Wozu der ganze unnötige Aufwand?


      Das schau ich mir mal näher an, danke.
      Bei den Beispielen die ich mir angesehen habe gibt es keine RSS-Feeds (Bild, Die Welt, Nordbayern) daher hatte ich das relativ frühzeitig ausgeschlossen.
      Aber dann muss ich halt auf andere Nachrichtenportale zugreifen. Süddeutsche Zeitung hat z.B. einen.

      Kommentar


      • #4
        Für was soll es keine Feeds geben?

        Kommentar


        • #5
          Ja Mega!
          Danke!

          Kommentar

          Lädt...
          X