Ankündigung

Einklappen
Keine Ankündigung bisher.

Crawler/Grabber für Webseiteninhalt

Einklappen

Neue Werbung 2019

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Crawler/Grabber für Webseiteninhalt

    Huhu Ihre lieben,

    ich habe ein größeres Problem in der Umsetzung, bestimmte Daten von: http://de.atlantica.nexoneu.com/cent.../game_rank.asp

    Auszulesen (Erlaubnis dafür habe ich, da ich dort a) selbst spiele und b) das folgende Projekt schon einmal existierte aber nicht mehr online ist und der entwickler unauffindbar ist) sind die Spielerdaten aus der dortigen Statistik (Freie Liga).

    Leider ist es ein eingebundenes IFRAME von http://de.atlantica.nexoneu.com/cent...unity/rank.asp, welches obendrein noch Zusatzwerte (posts) haben kann und aktuell 900 Seiten hat.

    Es sollen die Daten zu den Spielern ausgelesen werden, zzgl. der auf der Seite fehlenden Angaben wie Nation, ob der Spieler Gildenleiter/Nationskönig ist und natürlich Informationen über die Gilde(n) selbt (Punkte, Lvl, usw.).

    Ist dies so möglich? Aktuell will man mir nehmlich nicht mal ansatzweise Zugriff auf diese Daten geben bzw. keine CSV/XML dafür erstellen, was ich doch schade finde.

    Hoffe, man kann mir hier wenigstens etwas helfen .

    Gruß
    Chaos234

  • #2
    Und mit welcher Begründung erhälst du keinen Zugriff ? Grundsätzlich ist es erstmal nicht legal Content aus Seiten zu extrahieren wenn man dafür keine (schriftliche) Genehmigung hat oder es explizit in den AGBs, der EULA oder einem anderen publizierten Agreement veröffentlicht wurde.
    [URL="https://gitter.im/php-de/chat?utm_source=share-link&utm_medium=link&utm_campaign=share-link"]PHP.de Gitter.im Chat[/URL] - [URL="https://raindrop.io/user/32178"]Meine öffentlichen Bookmarks[/URL] ← Ich habe dir geholfen ? [B][URL="https://www.amazon.de/gp/wishlist/348FHGUZWTNL0"]Beschenk mich[/URL][/B].

    Kommentar


    • #3
      Der Direkte Zugriff wird aus Sicherheitsgründen nicht gestattet, jedoch darf ich für dieses Fanprojekt, welches einst unter character-db.de existierte einen Crawler verwenden.

      Dies wurde mir in einem Supportticket sogar mehrfach bestätig. Wenn das für dich mangelhaft ist oder schon mein Satz im Startpost nicht aussagekräftig genug ist und du meinen müsstest, a) meine Aussage mit der Erlaubnis zu untergraben oder b) mit Rechtsbelehrung kommen zu müssen, dann kann ich auf deine Antworten wohlgehend verzichten.

      Es ist ganz normal, dass sich NEXON hier etwas quer stellt, was die Anbindung anbelangt, also muss ich mit den Mitteln arbeiten, die mir im Ticket mitgeteilt wurden.

      Also keine weitere Rechtsbelehrung, da dies a) nicht zum Thema gehört und b) (noch mal für alle) mir eine Erlaubnis dafür erteilt wurde!

      Muss man denn immer erst "auf den Putz" hauen, ehe man vernünftig schreiben kann?

      Kommentar


      • #4
        PHP-Fortgeschrittene
        Nein.
        [COLOR="#F5F5FF"]--[/COLOR]
        [COLOR="Gray"][SIZE="6"][FONT="Georgia"][B]^^ O.O[/B][/FONT] [/SIZE]
        „Emoticons machen einen Beitrag etwas freundlicher. Deine wirken zwar fachlich richtig sein, aber meist ziemlich uninteressant.
        [URL="http://www.php.de/javascript-ajax-und-mehr/107400-draggable-sorttable-setattribute.html#post788799"][B]Wenn man nur Text sieht, haben viele junge Entwickler keine interesse, diese stumpfen Texte zu lesen.“[/B][/URL][/COLOR]
        [COLOR="#F5F5FF"]
        --[/COLOR]

        Kommentar


        • #5
          Ruhig Blut, ich gebe dir keine Rechtsbelehrung, ich wollte nur darauf hinweisen das allgemein das extrahieren von Content aus einer veröffentlichen Webseite nicht legal ist ( was schlussendlich entscheidend ist ob wir / ich hier etwas supporten, illegales tun wir jedenfalls nicht erklären / behelfen ) und du über eine explizite Erlaubnis nichts verloren hast im Start-Post. Ob du da nun spielst oder ob es das Projekt schon gar erklärt dir keinerlei Erlaubnis ebend auch dessen Daten zu verwenden. Mir ist auch Schnuppe ob und wie sich NEXON dabei anstellt.

          Zu deiner Problemstellung bleibt nur zu sagen, das du in Erfahrung bringen solltest wann genau diese Liga-listen generiert werden. Es bringt nichts 900 Webrequests abzufeuern um 900 einer Pagination unterworfenen Datenfragmentsammlung abzuholen, wenn diese sich während des Abhol-Zyklus verändern könnte.

          Ich würde wenn ich das festgestellt hab, die erste Seite mit curl abholen und mit DOMDocument und DOMXPath examinieren. Probleme könnte es dabei mit der Validität der von NEXON bereitgestellten HTML-Dokumente geben. DOMDocument schluckt zwar vieles, aber gerade bei der Analyse des DOMs könnte die Invalidität eine Rolle spielen ob spezifische DOM-Pfade existieren oder nicht.

          Aus Technischer Sicht brauchst du nach dem Auslesen via DOMDocument und DOMXPath eigentlich nur auf die Navigationsbar reagieren, denn diese ist ein adäquater Index für noch folgende Seiten.

          In Summe: Möglich ? Ja. Umzusetzen ? - Wenn man sich schon mit DOMDocument traut umzugehen und keine Angst davor hat sich durch XPATH zu kämpfen, natürlich.
          [URL="https://gitter.im/php-de/chat?utm_source=share-link&utm_medium=link&utm_campaign=share-link"]PHP.de Gitter.im Chat[/URL] - [URL="https://raindrop.io/user/32178"]Meine öffentlichen Bookmarks[/URL] ← Ich habe dir geholfen ? [B][URL="https://www.amazon.de/gp/wishlist/348FHGUZWTNL0"]Beschenk mich[/URL][/B].

          Kommentar

          Lädt...
          X