Ich bin mir sicher, dass es hierfür 100%ig eine Lösung gibt und diese im WWW veröffentlicht wurde. Da ich nach 4 Stunden suchen und lesen aber etwas genervt bin, hoffe ich, dass jemand von euch mir helfen kann.
Ich habe folgendes Problem:
Ich möchte den Text einer HTML-Seite analysieren. Dabei sollen bestimmte Tags komplett entfernt werden, bei anderen nur diese ersetzt werden, damit ich sie später analysieren kann.
Beispiel:
Code:
<p>Dies ist der Haupttext der Seite<br />Und hier folgt weiterer Text, der sehr wichtig ist</p>
<a href="mehr.html">Mehr Informationen <img src="weiter.jpg" /></a>
<h1>Heute ist folgendes passiert...</h1>Unfall auf der...
Hier hätte ich gerne nur folgendes Resultat:
|->|Dies ist der Haupttext der Seite|->|Und hier folgt weiterer Text, der sehr wichtig ist|->|Heute ist folgendes passiert...|->|Unfall auf der...
strip_tags hilft hier nicht weiter
und mit preg_replace komme ich auch nicht wirklich weiter.
Jeden unerwünschten Tag einzelt komplett zu entfernen (<a...>, <img...>) und bei jedem einzelnen gewünschten Tag (<td...>, <p...>) den Inhalt zwischen den Tags zu extrahieren halte ich für extrem aufwendig und nicht gerade für neue Tags als zukunftsweisend.