Crawler/Grabber für Webseiteninhalt

Chaos234

Dabei seit: 17.01.2010

Beiträge: 5
#1

Crawler/Grabber für Webseiteninhalt

16.01.2014, 23:28

Huhu Ihre lieben,

ich habe ein größeres Problem in der Umsetzung, bestimmte Daten von: http://de.atlantica.nexoneu.com/cent.../game_rank.asp

Auszulesen (Erlaubnis dafür habe ich, da ich dort a) selbst spiele und b) das folgende Projekt schon einmal existierte aber nicht mehr online ist und der entwickler unauffindbar ist) sind die Spielerdaten aus der dortigen Statistik (Freie Liga).

Leider ist es ein eingebundenes IFRAME von http://de.atlantica.nexoneu.com/cent...unity/rank.asp, welches obendrein noch Zusatzwerte (posts) haben kann und aktuell 900 Seiten hat.

Es sollen die Daten zu den Spielern ausgelesen werden, zzgl. der auf der Seite fehlenden Angaben wie Nation, ob der Spieler Gildenleiter/Nationskönig ist und natürlich Informationen über die Gilde(n) selbt (Punkte, Lvl, usw.).

Ist dies so möglich? Aktuell will man mir nehmlich nicht mal ansatzweise Zugriff auf diese Daten geben bzw. keine CSV/XML dafür erstellen, was ich doch schade finde.

Hoffe, man kann mir hier wenigstens etwas helfen .

Gruß
Chaos234
Stichworte: -
tr0y

Dabei seit: 26.07.2010

Beiträge: 12664
#2

16.01.2014, 23:33

Und mit welcher Begründung erhälst du keinen Zugriff ? Grundsätzlich ist es erstmal nicht legal Content aus Seiten zu extrahieren wenn man dafür keine (schriftliche) Genehmigung hat oder es explizit in den AGBs, der EULA oder einem anderen publizierten Agreement veröffentlicht wurde.

[URL="https://gitter.im/php-de/chat?utm_source=share-link&utm_medium=link&utm_campaign=share-link"]PHP.de Gitter.im Chat[/URL] - [URL="https://raindrop.io/user/32178"]Meine öffentlichen Bookmarks[/URL] ← Ich habe dir geholfen ? [B][URL="https://www.amazon.de/gp/wishlist/348FHGUZWTNL0"]Beschenk mich[/URL][/B].
Kommentar
Chaos234

Dabei seit: 17.01.2010

Beiträge: 5
#3

16.01.2014, 23:44

Der Direkte Zugriff wird aus Sicherheitsgründen nicht gestattet, jedoch darf ich für dieses Fanprojekt, welches einst unter character-db.de existierte einen Crawler verwenden.

Dies wurde mir in einem Supportticket sogar mehrfach bestätig. Wenn das für dich mangelhaft ist oder schon mein Satz im Startpost nicht aussagekräftig genug ist und du meinen müsstest, a) meine Aussage mit der Erlaubnis zu untergraben oder b) mit Rechtsbelehrung kommen zu müssen, dann kann ich auf deine Antworten wohlgehend verzichten.

Es ist ganz normal, dass sich NEXON hier etwas quer stellt, was die Anbindung anbelangt, also muss ich mit den Mitteln arbeiten, die mir im Ticket mitgeteilt wurden.

Also keine weitere Rechtsbelehrung, da dies a) nicht zum Thema gehört und b) (noch mal für alle) mir eine Erlaubnis dafür erteilt wurde!

Muss man denn immer erst "auf den Putz" hauen, ehe man vernünftig schreiben kann?
Kommentar
nikosch

Dabei seit: 21.05.2008

Beiträge: 46002
#4

16.01.2014, 23:58

PHP-Fortgeschrittene

Nein.

[COLOR="#F5F5FF"]--[/COLOR]
[COLOR="Gray"][SIZE="6"][FONT="Georgia"][B]^^ O.O[/B][/FONT] [/SIZE]
„Emoticons machen einen Beitrag etwas freundlicher. Deine wirken zwar fachlich richtig sein, aber meist ziemlich uninteressant.
[URL="http://www.php.de/javascript-ajax-und-mehr/107400-draggable-sorttable-setattribute.html#post788799"][B]Wenn man nur Text sieht, haben viele junge Entwickler keine interesse, diese stumpfen Texte zu lesen.“[/B][/URL][/COLOR]
[COLOR="#F5F5FF"]
--[/COLOR]
Kommentar
tr0y

Dabei seit: 26.07.2010

Beiträge: 12664
#5

17.01.2014, 00:13

Ruhig Blut, ich gebe dir keine Rechtsbelehrung, ich wollte nur darauf hinweisen das allgemein das extrahieren von Content aus einer veröffentlichen Webseite nicht legal ist ( was schlussendlich entscheidend ist ob wir / ich hier etwas supporten, illegales tun wir jedenfalls nicht erklären / behelfen ) und du über eine explizite Erlaubnis nichts verloren hast im Start-Post. Ob du da nun spielst oder ob es das Projekt schon gar erklärt dir keinerlei Erlaubnis ebend auch dessen Daten zu verwenden. Mir ist auch Schnuppe ob und wie sich NEXON dabei anstellt.

Zu deiner Problemstellung bleibt nur zu sagen, das du in Erfahrung bringen solltest wann genau diese Liga-listen generiert werden. Es bringt nichts 900 Webrequests abzufeuern um 900 einer Pagination unterworfenen Datenfragmentsammlung abzuholen, wenn diese sich während des Abhol-Zyklus verändern könnte.

Ich würde wenn ich das festgestellt hab, die erste Seite mit curl abholen und mit DOMDocument und DOMXPath examinieren. Probleme könnte es dabei mit der Validität der von NEXON bereitgestellten HTML-Dokumente geben. DOMDocument schluckt zwar vieles, aber gerade bei der Analyse des DOMs könnte die Invalidität eine Rolle spielen ob spezifische DOM-Pfade existieren oder nicht.

Aus Technischer Sicht brauchst du nach dem Auslesen via DOMDocument und DOMXPath eigentlich nur auf die Navigationsbar reagieren, denn diese ist ein adäquater Index für noch folgende Seiten.

In Summe: Möglich ? Ja. Umzusetzen ? - Wenn man sich schon mit DOMDocument traut umzugehen und keine Angst davor hat sich durch XPATH zu kämpfen, natürlich.

[URL="https://gitter.im/php-de/chat?utm_source=share-link&utm_medium=link&utm_campaign=share-link"]PHP.de Gitter.im Chat[/URL] - [URL="https://raindrop.io/user/32178"]Meine öffentlichen Bookmarks[/URL] ← Ich habe dir geholfen ? [B][URL="https://www.amazon.de/gp/wishlist/348FHGUZWTNL0"]Beschenk mich[/URL][/B].
Kommentar

Ankündigung

Crawler/Grabber für Webseiteninhalt

Neue Werbung 2019

Crawler/Grabber für Webseiteninhalt

Kommentar

Kommentar

Kommentar

Kommentar