Ankündigung

Einklappen
Keine Ankündigung bisher.

Sehr, sehr viele automatische Seitenaufrufe

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Sehr, sehr viele automatische Seitenaufrufe

    Hallo ihr Lieben,

    als Semesterarbeit möchte ich mit einer Kommilitonin eine YouTube-Analyse erstellen.

    Dabei sollen die Klickzahlen, Kommentare und Daumen hoch bzw. runter Angaben aus dem HTML Quellcode ausgelesen werden.

    Wir speichern die ID des Videos, das für uns relevant ist und rufen den link mehrmals täglich auf um die Veränderung zu analysieren.

    Den Quellcode legen wir erstmal mit Hilfe eine PHP-Datei und file_get_contens auf der Platte ab.

    Nun möchten wir das automatisieren und stellen leider fest, dass es etwa um die 20 000 000 Seitenaufrufe am Tag sind.

    Gibt es Server die sowas leisten?


    Bin für jede Antwort dankbar. LG.


  • #2
    Erstmal solltet ihr die Youtube API nutzen, das vereinfacht das ganze und verringert die übertragenen Daten um ne ganze Menge. Es kann sein, dass ihr über die API die Statistiken mehrerer Videos gleichzeitig abrufen könnt.
    Zitat von nikosch
    Macht doch alle was Ihr wollt mit Eurem Billigscheiß. Von mir aus sollen alle Eure Server abrauchen.

    Kommentar


    • #3
      Dabei sollen die Klickzahlen, Kommentare und Daumen hoch bzw. runter Angaben aus dem HTML Quellcode ausgelesen werden.
      Eine Sonderbare Aufgabenstellung mit Verlaub.
      Ich bin mir nicht mal sicher ob das bei den Youtube AGBs so vorgesehen ist; es gibt schon einen Grund wieso die eine API haben.

      file_get_contens() -- ok kannste was machen mit Stream Contexten, ich würde Dir aber in solchen Fällen zu curl() raten; ich sehe da nur Vorteile.

      ca 14 000 Aufrufe pro Minute? Und Ihr seid sicher dass das Youtube nicht als Dos Atacke wertet?

      Nun möchten wir das automatisieren und stellen leider fest, dass es etwa um die 20 000 000 Seitenaufrufe am Tag sind.

      Gibt es Server die sowas leisten?
      Ich sehe beim Client keine Probleme bei ca. 250 Request / Sekunde

      Wie viele Videos versucht Ihr zu untersuchen, und in welchen Abständen braucht Ihr Infos über die Likes?
      Kann es sein, dass diese sonderbare Aufgabenstellung, durch ein negieren der API, nur zum sinvollen Abfragen animieren will, was ich bei Deinen Erklärungen noch nicht erkennen kann.

      Kommentar


      • #4
        Hallo und danke für Eure schnellen Antworten =).

        tkausl
        An eine API haben wir natürlich auch schon gedacht. Da muss man sich aber registrieren und wir möchten nicht, dass Google unser vorgehen verfolgen kann bzw. gibt es nicht alle Methoden die wir gerne hätten.


        meta01
        Da es uns auch um die Performance geht, besonders bei diesen Datenmengen, haben wir auch schon curl() ausprobiert. Und tatsächlich ist file_get_contents() etwas schneller =)

        Was wir vorhaben? Aaaalso...wir checken die Höhe und das wachsende Tempo der Klickzahlen und der Likes bzw. Disslikes. Dann natürlich den Titel, die Vorschläge rechts die von YouTube selbst kommen, sichern uns eventuell die Video-ID und durchsuchen die Kommentare nach bestimmten Schlüsselwörtern, wie "geil, cool, hammer, usw."

        Wir dachten so an 10 Aufrufe pro Tag pro Video.

        Stellt euch einfach sowas vor:
        Ihr habt dieses Video https://www.youtube.com/watch?v=YQHsXMglC9A und wollt einfach den kompletten Quellcode, oder nur relevante Tags, aus dieser Seite speichern. Wie viele verschiedene Videos könnte ein Server pro Sekunde automatisch aufrufen und scannen.

        Dankööö =)

        Kommentar


        • #5
          Für die YouTube API v2 müsst ihr euch nicht registrieren; Google stellt die Daten als XML Feed zur Verfügung.
          Näheres dazu: https://developers.google.com/youtub...guide_protocol

          Auch wenn sie als depricated makiert ist, stellt die aktuelle Version nicht alle Funktionen der v2 zur Verfügung.
          Ajax ist auch ein Putzmittel.

          Kommentar


          • #6
            Etwas schneller, schön.
            Mich nun würde der Code ( schon wegen des Cache Managments) und die Benchmarks interessieren.
            Zudem rate ich Dir auch Tools wie Zebra_cURL und curl-easy zu testen.

            Kommentar


            • #7
              Fürs Erste danke an alle. Ich werde die Tipps mal so mitnehmen und mich dann ggf. noch mal melden

              Kommentar

              Lädt...
              X