php.de

Zurück   php.de > Webentwicklung > PHP-Fortgeschrittene

PHP-Fortgeschrittene Arbeiten mit PHP ohne Einschränkungen

Antwort
 
LinkBack Themen-Optionen Thema bewerten
Alt 21.05.2005, 13:16  
Erfahrener Benutzer
 
Registriert seit: 07.10.2003
Beiträge: 122
Mutatos
Standard Web Spider

Hallo zusammen, ich möchte ein bischen experimentieren und möchte mir einen kleinen WebSpider basteln, der Seiten nur auf kyrillisch untersuchen soll.

Wie funktioniert eigentlich ein Spider Script. Ich erkläre es mir eigentlich so:

Ich nehme mir eine Seite vor, untersuche diese und speichere alle vorkommenden URL's, und nachher untersuche ich diese und so weiter .... Ist das bis jetzt richtig?

Meine Überlegung ist, soll ich den Inhalt von jede Seite irgendwo Speichern, sagen wir wenn jemand nach einen bestimmten Wort sucht, dass ich das möglicherweise direkt aus der Datenbank raushollen kann und nicht wieder alle gespeicherten URL's wieder zu durchsuchen?

Oder wenn meine Überlegungen falsch sind, kann mir jemand weiterhelfen? Was ich noch wissen möchte ist, wie kann ich die Suchmaschine so bauen, dass Sie nur kyrillische Seiten durchsuchen sollte oder zumindes erkennen kann?

Danke!

Gruß
Nik
Mutatos ist offline   Mit Zitat antworten
Sponsor Mitteilung
PHP Code Flüsterer

Registriert seit: 21.08.2005
Beiträge: 4682
PHP-Kenntnisse:
Fortgeschritten

Alt 21.05.2005, 13:25  
axo
Erfahrener Benutzer
 
Registriert seit: 24.12.2004
Beiträge: 1.814
axo ist zur Zeit noch ein unbeschriebenes Blatt
Standard

wozu das rad neu erfinden?
Code:
man wget
...

Zitat:
Ich nehme mir eine Seite vor, untersuche diese und speichere alle vorkommenden URL's, und nachher untersuche ich diese und so weiter .... Ist das bis jetzt richtig?
ja, und dann musst du session-IDs erkennen, mailto-adressen filtern etc...

Zitat:
Was ich noch wissen möchte ist, wie kann ich die Suchmaschine so bauen, dass Sie nur kyrillische Seiten durchsuchen sollte oder zumindes erkennen kann?
angesichts der tatsache, dass jeder mensch html-code schreiben kann wie er will, gibt es keinen hundertprozentigen algorithmus.
versuche halt mal, muster zu erkennen - meta tags, typische zeichen, typische formulierungen.

allerdings wird das ganze mit php nicht besonders lustig.
axo ist offline   Mit Zitat antworten
Alt 22.05.2005, 22:27  
Erfahrener Benutzer
 
Registriert seit: 07.10.2003
Beiträge: 122
Mutatos
Standard

Hi! Ich habe das mit PHP versucht, aber leider bricht er irgendwann ab, wenn viel abgespeichert wird ... -(

Aber kein Problem eine Lösucng kann ich fiden.

Was ich wissen möchte ist wenn ich alle Wörter von einen Dokument als Keywörter abspeichere, wie soll ich die mit der Seite verknüpfen? Ich meine nehmen wir an ein Dokument hat 2000 Wörter und die sind alle als Keywörter abgespeichert, ich kann doch nicht 2000 Einträge zu dieses Dokument machen und jedes Keywort damit verbinden

Wie wäre es klug die Keywörter mit dem Dokument zu verbinden. Wenn jemand auch info irgendwo im Internet kennt wäre ich dankbar, wenn er mir den Link schickt!


Danke!
Mutatos ist offline   Mit Zitat antworten
Alt 22.05.2005, 22:48  
Erfahrener Benutzer
 
Registriert seit: 27.10.2003
Beiträge: 530
Thice
Standard

Wozu die Keywords? Du kannst doch mit LIKE ganze Texte nach Wörten oder Phrasen durchsuchen.

MfG
Andy
__________________
kintzebros.de | KintzeBros Home Entertainment
2061. Nach dem Frieden | kurzfilm
Paula | spielfilm
Thice ist offline   Mit Zitat antworten
Alt 22.05.2005, 22:54  
axo
Erfahrener Benutzer
 
Registriert seit: 24.12.2004
Beiträge: 1.814
axo ist zur Zeit noch ein unbeschriebenes Blatt
Standard

http://en.wikipedia.org/wiki/Tfidf
axo ist offline   Mit Zitat antworten
Alt 23.05.2005, 08:42  
Erfahrener Benutzer
 
Registriert seit: 07.10.2003
Beiträge: 122
Mutatos
Standard

Zitat:
Zitat von Thice
Wozu die Keywords? Du kannst doch mit LIKE ganze Texte nach Wörten oder Phrasen durchsuchen.

MfG
Andy
Hi!

Es wird aber sehr schwer sein ein Paar Milionen von Einträgen mit LIkE zu durchsuchen, oder?

Die Suche muss sehr leicht und schnell sein

Gruß
Mutatos ist offline   Mit Zitat antworten
Alt 23.05.2005, 08:46  
Gast
 
Beiträge: n/a
Standard

http://de3.php.net/mnoGoSearch
  Mit Zitat antworten
Alt 07.07.2005, 11:40  
Erfahrener Benutzer
 
Registriert seit: 10.07.2003
Beiträge: 280
freq.9
freq.9 eine Nachricht über ICQ schicken freq.9 eine Nachricht über MSN schicken
Standard

Man könnte auch die Seite vorher per Tidy durchschauen, ob diese valid ist und dann nur solche Seiten parsen, wobei das den Umfang der Seiten auf ein Minimum begrenzen würde.

Wegen sowas bin ich strikter Anhänger des validen (X)HTML...
freq.9 ist offline   Mit Zitat antworten
Antwort


Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an
Gehe zu

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
PHPKIT-PortalSoftware--->>Metatages für Spider PHP Tipps 2004 2 10.07.2004 12:23

Besucher kamen über folgende Suchanfragen bei Google auf diese Seite
php spider, spider php, webspider php, php webspider, php spider script, php web spider, wie funktioniert webspider, php spider erkennen, webspider web nach quellcode durchsuchen, php website spider, spider bauen, php spider bauen, web spider php, webspider script, php crawler bauen, spider erkennung php, wie funktioniert ein spider, spider erkennen php, keywörter verbinden, html spider

Alle Zeitangaben in WEZ +2. Es ist jetzt 20:35 Uhr.




Powered by vBulletin® Version 3.7.2 (Deutsch)
Copyright ©2000 - 2012, Jelsoft Enterprises Ltd.
Search Engine Optimization by vBSEO 3.2.0
Aprilia-Forum, Aquaristik-Forum, Liebeskummer-Forum, Zierfisch-Forum, Geizkragen-Forum

Creative Commons License
Dieser Inhalt ist unter einer Creative Commons-Lizenz lizenziert.