Hallo zusammen,
ich habe bereits ein Programm geschrieben, das eine Website crawlt. Ich gebe dem Programm eine Hauptdomain und es erstellt mir daraufhin eine Liste mit sämtlichen Unterseiten, basierend auf die interne Verlinkung.
Bei dem Prozess wird erst die Hauptseite, dann nacheinander alle Links in der erstellten Liste abgearbeitet und so erweitert.
Ist eine Seite also nicht im Source-Code der Hauptwebsite oder Unterwebsite, wird sie auch nicht gelistet. Das ist für mein Vorhaben aber nicht weiter tragisch.
Ich möchte gerne eine kleines Hobby-Projekt umsetzen, bei dem ich eine Website, wie z.B. ein Nachrichtenportal, regelmäßig nach neuen Inhalten abfrage, die Wörter zähle und das Ergebnis in einer Datenbank speichere.
Welche Möglichkeiten kennt ihr, um das Delta an Unterseiten einer Website heraus zu finden?
Mein Lösungsansatz:
Danke schon mal Vorab für eure Antworten
Gruß
Franke
ich habe bereits ein Programm geschrieben, das eine Website crawlt. Ich gebe dem Programm eine Hauptdomain und es erstellt mir daraufhin eine Liste mit sämtlichen Unterseiten, basierend auf die interne Verlinkung.
Bei dem Prozess wird erst die Hauptseite, dann nacheinander alle Links in der erstellten Liste abgearbeitet und so erweitert.
Ist eine Seite also nicht im Source-Code der Hauptwebsite oder Unterwebsite, wird sie auch nicht gelistet. Das ist für mein Vorhaben aber nicht weiter tragisch.
Ich möchte gerne eine kleines Hobby-Projekt umsetzen, bei dem ich eine Website, wie z.B. ein Nachrichtenportal, regelmäßig nach neuen Inhalten abfrage, die Wörter zähle und das Ergebnis in einer Datenbank speichere.
Welche Möglichkeiten kennt ihr, um das Delta an Unterseiten einer Website heraus zu finden?
Mein Lösungsansatz:
- Anfangs war der Plan jeden Tag ein Crawling zu machen und durch den Vergleich von letztem zu neuem Crawlen die neuen Seiten zu finden.
Ich kann ein Nachrichtenportal jedoch nicht jeden Tag komplett crawlen, die haben teilweise mehrere 100.000 Unterseiten wobei fast alle alt sind. - Eine andere Möglichkeit wäre nur die Hauptseite der Nachrichtenportale zu crawlen und da den Bereich der neuen Artikel heraus zu filtern. Allerdings werden da auch nur die meist gelesenen Verlinkt statt alle neuen.
- Eine letzte Möglichkeit sehe ich darin die Menüpunkte aufzuschlüsseln und anschließend wie in Punkt 2 beschrieben zu verfahren. Das wiederum macht aber sehr viel Pflegeaufwand da sich auch mal ein Menüpunkt ändern kann.
Außerdem splitten sich die Menüpunkte in vielen Untermenüpunkte auf, die ich dann einzeln zum crawlen angeben müsste.
Danke schon mal Vorab für eure Antworten
Gruß
Franke
Kommentar