Hallo Zusammen,
ich bin auf der Suche nach einer Lösung und m.E. müsste es sowas eigentlich schon geben. Nur weiß ich nicht genau, wonach ich suchen soll bzw. wie ich es finden soll... ich hoffe, ihr versteht, was ich meine...
Ich suche also eine Art Website Crawler, der einen bestimmten Bereich einer fremden Website erfasst und und in eine DB einliest. Allerdings soll nur der relevante Teil einer Website eingelesen werden, also alle Navigation, Header, Footer usw. brauche ich nicht, sondern nur "eine mittleren Teil" mit den für mich wichtigen Informationen.
Dieser "mittlere Teil" wird dann mit einem neuen Header und Footer ausgestattet und abgespeichert, so dass ich dieses HTML-File nutzen kann.
Auf der anderen Seite "erkennt" dieser "Roboter", dass eine Seite nicht mehr existent ist und weisst mich darauf hin bzw. das neue Seiten dazugekommen sind.
Hintergrundidee:
Stellt euch vor eine Seite hat einen "News"-Bereich.
Ich möchte nun diese News spidern und in einem neuen Template wieder online auswerfen. Der ganze "HTML-Krempel" um die News interessiert mich nicht, sondern nur die News-Meldung selbst.
Löscht die fremde Website nun eine News, dann möchte ich das ebenfalls löschen; stellt sie neue News ein, dann benötige ich ebenfalls wieder einen Hinweis, damit ich meine Files up-to-date halten kann...
Meine Frage nun:
Gibt es sowas nicht schon? Wenn ja, wo?
Viele Grüße
P.
____