Wenn die Anbieter wollen dass ihre Inhalte genutzt werden, bieten sie das doch entweder als full-feed (rss, atom) an oder bieten eine api dafür an.
Weil mit nem einheitlichen regex wirst du es wohl nicht schaffen die inhalte aus verschiedenen Seiten zu extrahieren, vor allen was ist mit werbung und co ? Willst du die auch einfach übernehmen ? inkusive markup und so ?
Irgendwie kann ich mir nicht vorstellen, dass wenn die Inhalte so wie du es sagst genutzt werden dürfen, sie nicht auch in einem passenden Format zur Verfügung gestellt werden. Weil wenn du die inhalte selbst extrahieren willst, heißt das für JEDE seite anpassungen und es heißt auch wenn der anbieter irgendwas an seinem layout/markup ändert, dass dein automatisiertes Tool unter umständen nicht mehr funktioniert, mist ausliest etc. |