php.de

Zurück   php.de > Webentwicklung > PHP-Fortgeschrittene

PHP-Fortgeschrittene Arbeiten mit PHP ohne Einschränkungen

Antwort
 
LinkBack Themen-Optionen Thema bewerten
Alt 16.12.2011, 17:51  
Neuer Benutzer
 
Registriert seit: 16.12.2011
Beiträge: 16
PHP-Kenntnisse:
Fortgeschritten
cececo befindet sich auf einem aufstrebenden Ast
Standard [Erledigt] Text aus HTML extrahieren

Ich bin mir sicher, dass es hierfür 100%ig eine Lösung gibt und diese im WWW veröffentlicht wurde. Da ich nach 4 Stunden suchen und lesen aber etwas genervt bin, hoffe ich, dass jemand von euch mir helfen kann.

Ich habe folgendes Problem:
Ich möchte den Text einer HTML-Seite analysieren. Dabei sollen bestimmte Tags komplett entfernt werden, bei anderen nur diese ersetzt werden, damit ich sie später analysieren kann.

Beispiel:
Code:
<p>Dies ist der Haupttext der Seite<br />Und hier folgt weiterer Text, der sehr wichtig ist</p>
<a href="mehr.html">Mehr Informationen&nbsp;<img src="weiter.jpg" /></a>
<h1>Heute ist folgendes passiert...</h1>Unfall auf der...
Hier hätte ich gerne nur folgendes Resultat:
|->|Dies ist der Haupttext der Seite|->|Und hier folgt weiterer Text, der sehr wichtig ist|->|Heute ist folgendes passiert...|->|Unfall auf der...

strip_tags hilft hier nicht weiter
und mit preg_replace komme ich auch nicht wirklich weiter.
Jeden unerwünschten Tag einzelt komplett zu entfernen (<a...>, <img...>) und bei jedem einzelnen gewünschten Tag (<td...>, <p...>) den Inhalt zwischen den Tags zu extrahieren halte ich für extrem aufwendig und nicht gerade für neue Tags als zukunftsweisend.
cececo ist offline   Mit Zitat antworten
Sponsor Mitteilung
PHP Code Flüsterer

Registriert seit: 21.08.2005
Beiträge: 4682
PHP-Kenntnisse:
Fortgeschritten

Alt 16.12.2011, 19:43  
Erfahrener Benutzer
 
Registriert seit: 07.12.2009
Beiträge: 843
PHP-Kenntnisse:
Fortgeschritten
chorn befindet sich auf einem aufstrebenden Ast
Standard

mit Regexp kannst du doch beliebig viele Tags ziehen, nachdem du die überflüssigen entfernt hast

Code:
<.*>(.*)</.*>
Oder du guckst halt, ob das mit simplexml oder über DOM (php.net -> DOM) einlesen kannst.
chorn ist offline   Mit Zitat antworten
Alt 18.12.2011, 11:33  
Neuer Benutzer
 
Registriert seit: 16.12.2011
Beiträge: 16
PHP-Kenntnisse:
Fortgeschritten
cececo befindet sich auf einem aufstrebenden Ast
Standard

Zitat:
Zitat von chorn Beitrag anzeigen
mit Regexp kannst du doch beliebig viele Tags ziehen, nachdem du die überflüssigen entfernt hast

Code:
<.*>(.*)</.*>
Oder du guckst halt, ob das mit simplexml oder über DOM (php.net -> DOM) einlesen kannst.
Danke für die Antwort. Ich habe jetzt alle unnötigen Tags gelöscht und dann alle anderen zu einem Sonderzeichen verändert. Funktioniert jetzt prima.

Code:
// Links entfernen
$search = "@<a[^>]*>(.*?)<\/a>@si";
$file = preg_replace($search, ' ', $file);
// Grafiken entfernen
$search = "@<img[^>]*>@si";
$file = preg_replace($search, ' ', $file);

// </li> zu " - " umbauen
$search = "@<\/li>@si";
$file = preg_replace($search, ' - ', $file);
//Alle <br><br/><br /> entfernen
$search = "@<br[^>]*>@si";
$file = preg_replace($search, ' ', $file);
			
$search = "@<[^>]*>@si";
$file = preg_replace($search, '|>|', $file);
			
$words = explode('|>|',$file);
cececo ist offline   Mit Zitat antworten
Antwort


Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an
Gehe zu

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
Denkanstoß: Tabelle Horatio PHP Einsteiger 2 06.11.2011 18:10
Row size too large ibeg Datenbanken 11 01.11.2011 14:44
Bilder und Fliesstext - fpdf tsunami PHP Einsteiger 19 15.06.2011 18:27
Verschachtelte Auswahlfenster RichieG PHP Tipps 2010 3 10.03.2010 07:58
[Erledigt] CSS Problem, Links ausrichten monk HTML, Usability und Barrierefreiheit 7 09.03.2010 20:33
Text Ersetzen an anderer Stelle phpde Off-Topic Diskussionen 6 03.08.2009 20:12
Textfelder Array in Datenbank schreiben raa PHP Tipps 2009 16 14.03.2009 21:41
[Erledigt] url aus HTML extrahieren dh1sbg PHP Tipps 2008 3 03.10.2008 09:16
Scriptsuche [Erledigt] regExp: Text aus HTML extrahieren herpes Scriptbörse 4 15.08.2008 20:11
Hilfe bei regulärem Ausdruck (HTML Text Parsen) PHP Tipps 2005-2 4 04.08.2005 17:19
[Erledigt] Link PHP Tipps 2005-2 10 20.07.2005 21:28
Normaler Text und HTML Bereich PHP Tipps 2005-2 4 02.07.2005 05:02
Daten aus Text auslesen und in Variablen extrahieren PHP Tipps 2005-2 12 10.06.2005 08:05
[Erledigt] DIV´s wollen nicht wie ich das will :-) HTML, Usability und Barrierefreiheit 22 28.03.2005 18:36
[Erledigt] Frage: Text abschneiden aber auf html tags achten PHP-Fortgeschrittene 1 19.01.2005 20:46

Besucher kamen über folgende Suchanfragen bei Google auf diese Seite
text aus html extrahieren, php dom html br entfernen, wie extrahiere ich einen text aus einer html, text aus htmlseite extrahieren, html inhalt extrahieren, php text extrahieren, text aus html extrahieren php

Alle Zeitangaben in WEZ +2. Es ist jetzt 22:46 Uhr.




Powered by vBulletin® Version 3.7.2 (Deutsch)
Copyright ©2000 - 2012, Jelsoft Enterprises Ltd.
Search Engine Optimization by vBSEO 3.2.0
Aprilia-Forum, Aquaristik-Forum, Liebeskummer-Forum, Zierfisch-Forum, Geizkragen-Forum