php.de

Zurück   php.de > Webentwicklung > PHP Einsteiger > PHP Tipps 2009

 
 
LinkBack Themen-Optionen Thema bewerten
Alt 31.08.2009, 11:42  
Neuer Benutzer
 
Registriert seit: 31.08.2009
Beiträge: 2
PHP-Kenntnisse:
Anfänger
Datenbock befindet sich auf einem aufstrebenden Ast
Standard Suchmaschine mittels Get XSS

Hallo zusammen,

ich habe da ein paar Fragen:

Ich versuche gerade eine Suchmaschine zu erstellen, mit deren Hilfe mit nur einer Eingabe von Suchbegriffen die Ergebnisse von mehrer Seiten speziellen Seiten bekommt.

Ich muss dazu die URLs der jeweiligen Seiten analysieren und die entsprechenden GET Variablen dran hängen.

Bis jetzt funktioniert es auch einwandfrei jedoch folgendes:

Zeitweise kommt es vor, dass ich als Rückmeldung einiger Seiten die Meldung bekomme, dass die Anfrage auf der Gegenseite abgelehnt wurde. Ich gehe davon aus, dass die automatisierte Anfragen unterdrücken. Ist es nun möglich der Gegenseite bei jeder Anfrage andere Clients vorzugauckeln?

Ist es vielleicht anders herum möglich die jeweilige Suche in meiner Suchmaschine gar nicht über meinen Server sondern eher über den Client des Suchenden ablaufen zu lassen (Javascript oder ähnliches)?

Und eine Frage die kaum hierher gehört ich aber dreister Weise dennoch mal stelle:

Kann ein Betreiber einer öffentlichen Seite es verbieten, dass man auf die ohnehin zugänglichen Daten mittels eines solchen Skriptes zugreift? Google macht es doch auch, behaupte ich jetzt mal, nur, dass Google lediglich bestehenden Links folgt und nicht direkt Suchanfragen in die Masken der Betreiberseiten abschießt.

Ich bin gespannt.


MFG


Dennis
Datenbock ist offline  
Sponsor Mitteilung
PHP Code Flüsterer

Registriert seit: 21.08.2005
Beiträge: 4682
PHP-Kenntnisse:
Fortgeschritten

Alt 31.08.2009, 12:35  
Moderator
 
Benutzerbild von robo47
 
Registriert seit: 03.09.2004
Beiträge: 11.792
PHP-Kenntnisse:
Fortgeschritten
robo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz sein
Standard

Zitat:
Zitat von Datenbock Beitrag anzeigen
Ich muss dazu die URLs der jeweiligen Seiten analysieren und die entsprechenden GET Variablen dran hängen.
Warum ? Inhalte sind doch im normalfall verlinkt ? Und dann nimmt man die verlinkten Seiten und liest die aus und immer so weiter

Zitat:
Zeitweise kommt es vor, dass ich als Rückmeldung einiger Seiten die Meldung bekomme, dass die Anfrage auf der Gegenseite abgelehnt wurde. Ich gehe davon aus, dass die automatisierte Anfragen unterdrücken. Ist es nun möglich der Gegenseite bei jeder Anfrage andere Clients vorzugauckeln?
Bewußt gegen das Blocken der Seite verstoßen die nicht will dass du hier inhalte rausschauffelst ohne dass es gewünscht ist ? ... Sorry aber dabei sollte dir keiner helfen.

Zitat:
Ist es vielleicht anders herum möglich die jeweilige Suche in meiner Suchmaschine gar nicht über meinen Server sondern eher über den Client des Suchenden ablaufen zu lassen (Javascript oder ähnliches)?
dass also die Zugriffe vom Client kommen und der dann vielleicht von der Seite geblockt wird und in "echtzeit" im hintergrund ein javascript von dir fremde seiten durchsucht ? ... jedes mal wieder ? Das ist traffic und resourcen-verschwendung ^3 und das würde ich weder als webseitenbetreiber wollen das so jemand bei mir sucht, noch als user der suchmaschine dass über meine ip eine komplette seite erst ausgelesen wird.

Zitat:
Und eine Frage die kaum hierher gehört ich aber dreister Weise dennoch mal stelle:

Kann ein Betreiber einer öffentlichen Seite es verbieten, dass man auf die ohnehin zugänglichen Daten mittels eines solchen Skriptes zugreift? Google macht es doch auch, behaupte ich jetzt mal, nur, dass Google lediglich bestehenden Links folgt und nicht direkt Suchanfragen in die Masken der Betreiberseiten abschießt.

Natürlich kann man bots blocken, dafür gibt es 1) die robots.txt an die sich ein bot halten sollte, sonst würde ich ihn gleich als bösen bot ansehen 2) Bot-Trap.de Spamschutz fuer Webmaster mit sowas und anderen tools hält man böse bots von seiner Seite fern, sperrt sie aus etc

Klar kann man als Webseiten Betreiber nicht wollen das der eine million und erste sinnlose bot für eine randgruppen suchmaschine unnötig seine Server-Resourcen, Traffic und Co verschwendet. Ich sperre auch regelmäßig via robots.txt, anhand von IPs (teilweise IP-Bereiche) oder über den verwendeten User_Agent Bots aus, teilweise weil sie MIR einfach keinen mehrwert bringen, teilweise weil ich weis dass über die suchmaschine in 20 Jahren vielleicht 3 Nutzer kommen, teilweise weil es halt einfach irgendeine Form von bösen Bots ist, sei es welche die Inhalte klauen, Emailadressen suchen oder was auch immer.



So nach viel bösen Text, mal zurück zur Suchmaschine:

Wenn du ernsthaft vorhast in irgendeiner Form eine Suchmaschine aufzubauen, die ja auf die Inhalte anderer angewiesen ist, dann solltest du auch nach deren Regeln spielen. Halte dich an die robots.txt, ruf nicht ein paar tausend seiten innerhalb weniger minuten auf, nutze inhalte die offen zugänglich sind (nen bot der bei mir anfängt selbst GET-Parameter zu mainpulieren oder am ende noch POST-requests sendet, wird bei mir klar sofort ausgesperrt).
Bei allem anderen musst du damit rechnen dass früher oder später du unter umständen auch Ärger bekommst, weil von irgendeiner IP aus musst dein Bot ja laufen und die ist entweder die eines Servers oder eines Internet-Anschlusses und es geht eine Abuse-Mail an ISP/Hoster raus.
robo47 ist offline  
Alt 31.08.2009, 13:46  
Neuer Benutzer
 
Registriert seit: 31.08.2009
Beiträge: 2
PHP-Kenntnisse:
Anfänger
Datenbock befindet sich auf einem aufstrebenden Ast
Standard

Also ich glaube, es ist da einiges falsch herübergekommen.

Es geht nicht darum tausende Seiten innerhalb von Minuten/Tagen zu crawlen, sondern das Ergebnis der Suchanfrage expliziet erst dann zu holen, wenn ein suchender danach fragt.

Beispiel:

Es gibt sagen wir mal 10 Branchenbücher. Alle Branchenbücher haben eine Suchmaske alla "WAS" und "WO".

Nun kann der Besucher in mein Suchfenster "WAS" und "WO" eingeben und anstatt jedes Branchenbuch einzeln anzulaufen bekommt er hier das Ergebnis vieler Branchenbücher auf einmal.

MEHRWERT DER SEITENBETREIBER
Damit die Seitenbetreiber nicht leer ausgehen, erhält der Suchende eben nicht die vollständigen Einträge sondern nur einen Hinweis alla "in diesem Branchenbuch bist du und diesem und in diesem und in diesem....hier klicken (Verweis auf branchenbuch) für mehr Details.


BRANCHENBUCH IST NUR EIN BEISPIEL, bevor einige mosern, wer braucht sowas.
Datenbock ist offline  
Alt 31.08.2009, 15:05  
Moderator
 
Benutzerbild von robo47
 
Registriert seit: 03.09.2004
Beiträge: 11.792
PHP-Kenntnisse:
Fortgeschritten
robo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz seinrobo47 kann auf vieles stolz sein
Standard

Naja wenn das alles seriös und so ist, dann frag doch einfach bei den Seiten an ?
Wenn sie ein Interesse haben, gibt es vielleicht sogar ne API, weil so wie das für mich bisher aussah willst du ja deren komplette inhalte auslesen und da die bei den unternehmen teilweise unter gewissen lizenzen gekauft sind, nur für eigene verwendung etc, ist das auch rechtlich dann ein problem wenn du inhalte darstellst die das unternehmen nur auf seiner Seite anzeigen darf.

Weil bisher kam das ganze noch zumindest für mich nicht sonderlich seriös rüber:
Zitat:
Ich gehe davon aus, dass die automatisierte Anfragen unterdrücken. Ist es nun möglich der Gegenseite bei jeder Anfrage andere Clients vorzugauckeln?
robo47 ist offline  
 


Themen-Optionen
Thema bewerten
Thema bewerten:

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks are an
Pingbacks are an
Refbacks are an
Gehe zu

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
UPDATE/INPUT mehrerer Datensätze mittels Array/Schleife? dieter_danger PHP Tipps 2009 6 12.07.2009 13:38
Zero: Die neue Suchmaschine sucht weitere Helfer WestsidersX Beitragsarchiv 47 08.07.2009 18:55
Variable mittels hidden-Form übergeben OoNanaoO PHP Tipps 2009 5 03.06.2009 14:31
Wireshark SSL Handshake debugging-Handshake protokoll mittels PHP + Curl brian johnson Off-Topic Diskussionen 0 06.11.2008 11:54
Übergabe von eingegebenem String mittels Formular und POST?! vampsoftchef PHP Tipps 2006 7 18.10.2006 20:06
Suchmaschine findet nicht alle Begriffe PHP Tipps 2006 4 04.02.2006 11:51
FireFox Suchmaschine entfernen Off-Topic Diskussionen 4 08.12.2005 15:49
ICQ Nachrichten mittels PHP versenden greenrover PHP-Fortgeschrittene 9 25.10.2005 11:03
php: site-refresh nach submit mittels header PHP Tipps 2005-2 9 23.09.2005 15:22
mysql mittels php abfragen- array problem PHP Tipps 2005-2 6 20.07.2005 15:21
[Erledigt] Dateiupload mittels POST PHP-Fortgeschrittene 5 04.02.2005 07:07
[Erledigt] Neuen Benutzer mittels PHP in MYSQL Anlegen PHP-Fortgeschrittene 1 28.10.2004 17:22
benötige suchmaschine Beitragsarchiv 3 26.10.2004 00:35
[Erledigt] Baumstrukturjavascript mittels PHP generieren HTML, Usability und Barrierefreiheit 4 27.08.2004 11:56
sendmail mittels popen ausführen??? PHP Tipps 2004 0 09.08.2004 19:54

Besucher kamen über folgende Suchanfragen bei Google auf diese Seite
php get suchmaschine, \xss\ suchmaschine, php get xss

Alle Zeitangaben in WEZ +2. Es ist jetzt 19:49 Uhr.




Powered by vBulletin® Version 3.7.2 (Deutsch)
Copyright ©2000 - 2012, Jelsoft Enterprises Ltd.
Search Engine Optimization by vBSEO 3.2.0
Aprilia-Forum, Aquaristik-Forum, Liebeskummer-Forum, Zierfisch-Forum, Geizkragen-Forum