Domain Crawlen - Neue Unterseiten erfassen

Franke

Dabei seit: 18.07.2021

Beiträge: 7
#1

Domain Crawlen - Neue Unterseiten erfassen

14.09.2021, 15:37

Hallo zusammen,

ich habe bereits ein Programm geschrieben, das eine Website crawlt. Ich gebe dem Programm eine Hauptdomain und es erstellt mir daraufhin eine Liste mit sämtlichen Unterseiten, basierend auf die interne Verlinkung.
Bei dem Prozess wird erst die Hauptseite, dann nacheinander alle Links in der erstellten Liste abgearbeitet und so erweitert.
Ist eine Seite also nicht im Source-Code der Hauptwebsite oder Unterwebsite, wird sie auch nicht gelistet. Das ist für mein Vorhaben aber nicht weiter tragisch.
Ich möchte gerne eine kleines Hobby-Projekt umsetzen, bei dem ich eine Website, wie z.B. ein Nachrichtenportal, regelmäßig nach neuen Inhalten abfrage, die Wörter zähle und das Ergebnis in einer Datenbank speichere.

Welche Möglichkeiten kennt ihr, um das Delta an Unterseiten einer Website heraus zu finden?

Mein Lösungsansatz:
Anfangs war der Plan jeden Tag ein Crawling zu machen und durch den Vergleich von letztem zu neuem Crawlen die neuen Seiten zu finden.
Ich kann ein Nachrichtenportal jedoch nicht jeden Tag komplett crawlen, die haben teilweise mehrere 100.000 Unterseiten wobei fast alle alt sind.

Eine andere Möglichkeit wäre nur die Hauptseite der Nachrichtenportale zu crawlen und da den Bereich der neuen Artikel heraus zu filtern. Allerdings werden da auch nur die meist gelesenen Verlinkt statt alle neuen.

Eine letzte Möglichkeit sehe ich darin die Menüpunkte aufzuschlüsseln und anschließend wie in Punkt 2 beschrieben zu verfahren. Das wiederum macht aber sehr viel Pflegeaufwand da sich auch mal ein Menüpunkt ändern kann.
Außerdem splitten sich die Menüpunkte in vielen Untermenüpunkte auf, die ich dann einzeln zum crawlen angeben müsste.

Alles nicht so optimal, daher die Frage an euch.

Danke schon mal Vorab für eure Antworten
Gruß
Franke
Stichworte: crawlen, curl
hellbringer

Moderator

Dabei seit: 09.08.2015

Beiträge: 11979
#2

14.09.2021, 15:47

Ich würde einfach den RSS-Feed abfragen und fertig. Wozu der ganze unnötige Aufwand?
Kommentar
Franke

Dabei seit: 18.07.2021

Beiträge: 7
#3

14.09.2021, 16:04

Zitat von hellbringer Beitrag anzeigen

Ich würde einfach den RSS-Feed abfragen und fertig. Wozu der ganze unnötige Aufwand?

Das schau ich mir mal näher an, danke.
Bei den Beispielen die ich mir angesehen habe gibt es keine RSS-Feeds (Bild, Die Welt, Nordbayern) daher hatte ich das relativ frühzeitig ausgeschlossen.
Aber dann muss ich halt auf andere Nachrichtenportale zugreifen. Süddeutsche Zeitung hat z.B. einen.
Kommentar
Blar

Dabei seit: 29.09.2013

Beiträge: 433
#4

16.09.2021, 22:26

Für was soll es keine Feeds geben?
https://www.bild.de/corporate-site/r...7128.bild.html

https://www.welt.de/services/article...-der-WELT.html

https://www.nordbayern.de/cmlink/15.712?cid=2.244
2 Likes
Kommentar
Franke

Dabei seit: 18.07.2021

Beiträge: 7
#5

18.09.2021, 17:29

Zitat von Blar Beitrag anzeigen

Für was soll es keine Feeds geben?
https://www.bild.de/corporate-site/r...7128.bild.html

https://www.welt.de/services/article...-der-WELT.html

https://www.nordbayern.de/cmlink/15.712?cid=2.244

Ja Mega!
Danke!
Kommentar

Ankündigung

Domain Crawlen - Neue Unterseiten erfassen

Neue Werbung 2019

Domain Crawlen - Neue Unterseiten erfassen

Kommentar

Kommentar

Kommentar

Kommentar