php.de

Zurück   php.de > Webentwicklung > PHP Einsteiger > PHP Tipps 2008

 
 
LinkBack Themen-Optionen Thema bewerten
Alt 14.03.2008, 07:06  
Neuer Benutzer
 
Registriert seit: 13.08.2006
Beiträge: 21
Exon
Standard Auslesen von Html Source nach bestimmten Wörtern

Hi Community,


ich versuche derzeit ein System zu basteln, das Webshops zu einem Thema ausliest (HTML Src ,Rechtlich okay da einverständnis) und die gesammelten Informationen und Preise übersichtilich/vergleichbar darstellt (Artikel sind meinerseits in DB gespeichert).

Das bei einzelnen Shops hinzubekommen gelingt mir teilweise, nur verschlingt es eine Heidenzeit pro Shop. Es müssen nichteinmal die ganzen shops sondern teilweise nur einzelne Seiten davon durchgegangen werden.

Meine fragen daher:

Gibt es bestimmte Text-Such Algoritmen oder Routinen die bei sowas allgemein angewendet werden. Gibt es bestimmte Vorgehen ?

Kennt evtl jemand open source zu diesem Thema ?

Bisher arbeite ich mit den den preg_* funktionen, gibt es etwas besseres ?
Exon ist offline  
Sponsor Mitteilung
PHP Code Flüsterer

Registriert seit: 21.08.2005
Beiträge: 4682
PHP-Kenntnisse:
Fortgeschritten

Alt 14.03.2008, 08:12  
CIX88
Gast
 
Beiträge: n/a
Standard

Zitat:
Bisher arbeite ich mit den den preg_* funktionen, gibt es etwas besseres ?
Nö, weil der Aufbau der einzelnen Seiten sicher immer unterschiedlich sein wird.
Wenn du einzelne Informationen aus dem HTML-Text suchen willst, dann muss für jede Seite das angepasst werden. Da gibt es keine Vorgaben, keine fertigen Klassen oder sonstiges -> alles schöne Handarbeit.
 
Alt 14.03.2008, 08:48  
Moderator und Wett-König
 
Benutzerbild von dr.e.
 
Registriert seit: 21.05.2008
Beiträge: 3.633
PHP-Kenntnisse:
Fortgeschritten
dr.e. ist ein Lichtblickdr.e. ist ein Lichtblickdr.e. ist ein Lichtblickdr.e. ist ein Lichtblickdr.e. ist ein Lichtblickdr.e. ist ein Lichtblick
dr.e. eine Nachricht über Skype™ schicken
Standard

Hallo Exon,

wenn du keine REGEXPs verwenden möchtest, funktioniert auch ein strpos() in Verbindung mit substr(), wenn du die Token kennst. Seit PHP5 kannst du auch ein stripos() verwenden und musst nicht mehr auf Groß-/Kleinschreibung achten.
__________________
Viele Grüße,
Dr.E.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
1. Think about software design before you start to write code!
2. Discuss and review it together with experts!
3. Choose good tools (-> Adventure PHP Framework (APF))!
4. Write clean and reusable software only!
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
dr.e. ist offline  
Alt 15.03.2008, 08:56  
Erfahrener Benutzer
 
Registriert seit: 21.05.2008
Beiträge: 9.937
Zergling-new wird schon bald berühmt werden
Standard

Hallo,
wenn der Anbieter es unterstützt, solltest du dessen API (Schnittstelle) verwenden, wenn er dies nicht anbietet, wird er vermutlich nicht wollen, dass du seine Inhalte inhatlich indizierst. Hier ist also Vorsicht geboten. Wenn es nicht in Echtzeit verlangt wird, mach dich über Cronjobs schlau. Alles weitere bitte erst, wenn geklärt ist, dass du das Recht hast, die Seiten zu durchsuchen. Dann bitte mit Link zum Anbieter, illegale Indexierung möchten wir nicht unterstützen. Danke für dein Verständnis.
Zergling-new ist offline  
Alt 18.03.2008, 06:15  
Neuer Benutzer
 
Registriert seit: 13.08.2006
Beiträge: 21
Exon
Standard

Also wies aschaut werd ich bei preg_* und strpos/substr bleiben .

@dr.e. Danke für den Tipp aber Strpos/substr/chrchr benutz ich auch.

@Zergling: wie schon im Startpost rechtlich okay da ich die Einverständnis der Anbieter habe. Nur kommt nicht jeder von denen auf die Idee mir grad eine Api zu stellen weil ich das jetzt grad so will (manche haben eins hält sich aber eher in grenzen).

Cronjobs sind auch klar.

Es geht mir darum ob es für sowas gute "allgemeine" Algorithmen gibt, so das es evtl möglich wäre eine Art Wrapper/Crawler für alle diese Seiten zu bauen.

Meine bisherige Idee baut auf folgendes auf:

- Jeder Shop hat Artikel in einer wiederholten Struktur (zb <table>Bla</table>, und diese muss ich wohl für jeden anbieter extra definieren)
- Diesen String ermitteln
- Bestimmen ob ein Artikelname (aus meiner db) in diesem String vorkommt
- Falls ja, string auf andere must-have angaben überprüfen die für eine eindeutige Identifikation nötig sind

Nun gibts bei mir leider etwas Probleme mit den verschieden Tiefen verschachtelungen, werds aber wohl so weiter verfeinern. Ausserdem muss für jeden Anbieter wohl extra definiert werden was in welcher struktur vorkommt.

Wie gesagt fall jemand einen eleganteren Ansatz hat wär toll.
Exon ist offline  
 


Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an
Gehe zu

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
[Erledigt] script das html dateien aus einem bestimmten ordner listet PHP Tipps 2004 16 09.05.2009 18:52
Bestimmten Befehl der HTML verarbeitet Gokel PHP Tipps 2008 19 16.07.2008 00:13
Nur bestimmten Html Code zulassen? litterauspirna PHP Tipps 2008 5 29.04.2008 12:30
Aus HTML Seite bestimmten (unbekannten) Wert finden DeMoehn PHP Tipps 2007 10 15.06.2007 14:44
Html Code auslesen? Rotti PHP Tipps 2006 8 14.05.2006 15:57
Teile einer HTML Seite auslesen PHP Tipps 2006 4 01.01.2006 18:41
Externe HTML oder PHP Datei auslesen (von XAMPP ins WWW) PHP Tipps 2005-2 4 09.09.2005 08:12
HTML Quelltext auslesen PHP Tipps 2005-2 8 18.07.2005 21:08
bestimmten string aus spalte auslesen aircrash PHP Tipps 2005 3 01.02.2005 18:07
Html Code Komplett auslesen PHP Tipps 2005 15 04.01.2005 22:59
Auslesen mySQL tabelle und ausgabe als html Calli PHP Tipps 2004-2 3 21.12.2004 16:51
Titel des HTML Dokuments auslesen PHP Tipps 2004-2 2 02.12.2004 21:31
[Erledigt] CURL / PHP bestimmten String auslesen PHP-Fortgeschrittene 2 05.10.2004 18:22
[Erledigt] html auslesen mit file() PHP Tipps 2004 2 02.08.2004 08:57
auslesen von bestimmten Strings PHP Tipps 2004 0 06.07.2004 12:13

Besucher kamen über folgende Suchanfragen bei Google auf diese Seite
http://www.php.de/php-tipps-2008/45641-auslesen-von-html-source-nach-bestimmten-woertern.html, bestimmter bereich webseite auslesen, html wörter auslesen, html source code einlesen, php quellcode in tabelle einlesen, html code auslesen, artikel von website auslesen, bestimmter bereich auslesen mysql, php teil aus html auslesen, curl html string auslesen, php bestimmter bereich auslesen, programm html auslesen, komplette webseiten wörter auslesen, html source code mit php auslesen, sourcecode mit php auslesen, curl php bestimmter string einer seite, html source code auslesen, php bestimmten bereich auslesen, php quelltext auslesen tabelle bestimmter bereich, bestimmte information aus html auslesen

Alle Zeitangaben in WEZ +1. Es ist jetzt 19:01 Uhr.




Powered by vBulletin® Version 3.7.2 (Deutsch)
Copyright ©2000 - 2012, Jelsoft Enterprises Ltd.
Search Engine Optimization by vBSEO 3.2.0
Aprilia-Forum, Aquaristik-Forum, Liebeskummer-Forum, Zierfisch-Forum, Geizkragen-Forum

Creative Commons License
Dieser Inhalt ist unter einer Creative Commons-Lizenz lizenziert.