php.de

Zurück   php.de > Webentwicklung > PHP Einsteiger > PHP Tipps 2006

 
 
LinkBack Themen-Optionen Thema bewerten
Alt 08.11.2006, 17:14  
Gast
 
Beiträge: n/a
Standard Seite auslesen

Hallo Leute,

würde gerne einen Webcrawler programmieren, also in die Richtung Seiten durchsuchen sollte es gehen.

gibt es dafür vielleicht auch ein Tutorial.

mfg rotmilan
 
Sponsor Mitteilung
PHP Code Flüsterer

Registriert seit: 21.08.2005
Beiträge: 4682
PHP-Kenntnisse:
Fortgeschritten

Alt 08.11.2006, 17:18  
moderatives Dielektrikum
 
Benutzerbild von nikosch
 
Registriert seit: 21.05.2008
Beiträge: 35.987
PHP-Kenntnisse:
Fortgeschritten
nikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunft
Standard

dann guck doch erstmal, ob du eines findest.
nikosch ist offline  
Alt 08.11.2006, 17:29  
Gast
 
Beiträge: n/a
Standard

Du wirst es nich glauben,

ich hab schon gesucht nach webcrawler bot rebot spider aber leider zur programmierung sogut wie nichts gefunden, ausser etwas über die robots.txt

also falls mir jemand einen Tipp geben kann oder sich damit auskennt...
immer her damit!

mit besten Grüßen rotmilan
 
Alt 08.11.2006, 19:08  
moderatives Dielektrikum
 
Benutzerbild von nikosch
 
Registriert seit: 21.05.2008
Beiträge: 35.987
PHP-Kenntnisse:
Fortgeschritten
nikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunft
Standard

also sowohl die suche nach 'crawler' als auch 'seite auslesen' findet in diesem forum ne menge resultate die dich weiterbringen können.
nikosch ist offline  
Alt 08.11.2006, 22:01  
Gast
 
Beiträge: n/a
Standard

Yo, hat was gebracht.

pcre und fopen ist schonmal ein Anfang

danke soweit.

Sag mal eignet sich php gut für Crawler, im Endeffekt will ich jede Menge Daten sichern und eine Webseite nach der anderen durchsuchen.

Gibts da rechtliches zu beachten, sind ja eine Menge Crawler im Netz unterwegs wie gehen die vor. Soviel weiss ich das die robots.txt den Bereich für die Suche angibt.

Wie sucht sich der bot die Wege von Server zu Server?

mbg rotmilan
 
Alt 08.11.2006, 22:20  
Erfahrener Benutzer
 
Benutzerbild von GelaMu
 
Registriert seit: 05.03.2006
Beiträge: 183
GelaMu
Standard

Hab sowas zwar noch nie probiert, aber ich würde mal sagen du parst die Ausgaben des Servers nach Hostnamen (oder Bilder, Video, usw...).
Das alles im Speicher zu behalten wäre ja Quatsch, daher: speichere das alles in MySQL o.ä. ab.
Vielleicht wäre es auch gut gleich zu überprüfen ob die Links gültig sind.

Naja... viel Spaß damit
GelaMu ist offline  
Alt 08.11.2006, 22:30  
Gast
 
Beiträge: n/a
Standard

Bei welchem Server fang ich denn z.B an und begrenzen werd ich auch müssen, sagen wir 1000 Seiten?

über fopen kann ich irgendeine url ansprechen aber wie gehts weiter.
über links von der Seite, hatte ich eigentlich nich gedacht.

möchte jeweils 2-3 Daten pro Seite speichern, werd ich wohl über mysql machen.

mbg rotmilan
 
Alt 08.11.2006, 22:43  
Erfahrener Benutzer
 
Benutzerbild von GelaMu
 
Registriert seit: 05.03.2006
Beiträge: 183
GelaMu
Standard

Was meinst du mit 2-3 Daten? Oder meintest du Dateien?
Oder möchtest du über die Homepages einige Infos sammeln?
Hmmmm... bei welchem Server du anfangen könntest weiss ich auch nicht, vielleicht irgendeine große Homepage? Daraus entsteht dann sicher eine Kette von Seiten.
Soll das einfach ein Experiment sein?

Ich verstehe nicht genau was du machen willst
GelaMu ist offline  
Alt 08.11.2006, 22:49  
moderatives Dielektrikum
 
Benutzerbild von nikosch
 
Registriert seit: 21.05.2008
Beiträge: 35.987
PHP-Kenntnisse:
Fortgeschritten
nikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunftnikosch hat eine strahlende Zukunft
Standard

Zitat:
Bei welchem Server fang ich denn an
das klingt ja, als wolltest du das ganze web indizieren. kommt drauf an, was es werden soll.
ich würde schon über die links gehen. php ist sicher nicht der geeignetste weg (thema ausführungszeit, cronjobs), aber möglich ists auf jeden fall.
nikosch ist offline  
Alt 09.11.2006, 17:10  
Gast
 
Beiträge: n/a
Standard

Hi leute,

jo ich würd gern mit der Zeit alle .de domains durchrattern wollen, und es handelt sich um 2 bis 5 Daten pro Seite aber auch nicht von allen.

Ja also welche wäre den die geeignetste Sprache, worauf muss man da achten.

mbg rotmilan
 
 


Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an
Gehe zu

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
CURL in Seite einloggen und einen Teil parsen Matt PHP Tipps 2008 8 03.09.2009 22:30
Iframe aus einer Seite auslesen -CyberPlanet- PHP Tipps 2008 2 05.04.2008 20:48
Krieg kein Objekt zurück auf includeter Seite NONNNNN PHP Tipps 2008 5 28.03.2008 19:25
Titel einer Seite auslesen bernd14 PHP Tipps 2008 2 04.03.2008 11:44
Eintrag in DB und Wechsel zu anderer Seite Darson PHP Tipps 2008 25 14.01.2008 16:46
FORM und Seite auslesen phpfreak PHP Tipps 2006 3 27.07.2006 23:15
Teile einer HTML Seite auslesen PHP Tipps 2006 4 01.01.2006 18:41
quelltext einer seite auslesen... Sclot PHP Tipps 2005-2 8 18.06.2005 01:15
Hilfe: Auslesen von Seite PHP Tipps 2005 20 16.05.2005 14:19
Neue Seite an einer bestimmten Stelle aufrufen PHP Tipps 2005 3 13.01.2005 10:09
alter einer Seite auslesen PHP Tipps 2004-2 4 25.12.2004 19:40
seite auslesen PHP Tipps 2004 2 21.10.2004 14:28
Nutzer einer Novell Session auslesen mit PHP PHP Tipps 2004 2 23.08.2004 13:59
Seite nicht mit content="3600" im Cache gespeicher scheibo PHP Tipps 2004 0 19.07.2004 14:49
[Erledigt] PHP Eine neue PHP seite automatisch öffnen PHP Tipps 2004 1 19.06.2004 12:40

Besucher kamen über folgende Suchanfragen bei Google auf diese Seite
crawler php auslesen, php robots.txt auslesen, webcrawler forum auslesen, web crawler rechtliches, php crawler webseiteninhalt auslesen, webseite auslesen crawler auslesen, php crawler links auslesen, seite auslesen, robot für seiten auslesen, seiten auslesen robots, crawler seite auslesen, http://www.php.de/php-tipps-2006/42756-seite-auslesen.html, url crawler php

Alle Zeitangaben in WEZ +2. Es ist jetzt 14:29 Uhr.




Powered by vBulletin® Version 3.7.2 (Deutsch)
Copyright ©2000 - 2012, Jelsoft Enterprises Ltd.
Search Engine Optimization by vBSEO 3.2.0
Aprilia-Forum, Aquaristik-Forum, Liebeskummer-Forum, Zierfisch-Forum, Geizkragen-Forum

Creative Commons License
Dieser Inhalt ist unter einer Creative Commons-Lizenz lizenziert.