Ankündigung

Einklappen
Keine Ankündigung bisher.

Scraper für Kleinanzeigen

Einklappen

Neue Werbung 2019

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Scraper für Kleinanzeigen

    Hallo zusammen,

    ich hatte mal ein funktionierendes Script - aber aus irgendwelchen Gründen ist im Original die Verschachtelung der Tags falsch und das HTML qualtitativ ohnehin … naja (z.B. </article> ist im Originalquelltext obwohl nichts offen ist oder "&" ist ohne "&amp;" etc., etc.).
    Resultat ist jedenfalls, dass ich keine reine Angebotsliste mehr bekomme, die ich auf der Website darstellen kann, sondern auch noch jede Menge Quark nach dem gewünschten Container, inkl. JavaScripts und Footer und sonstwas — es wird einfach nicht nach bzw. außerhalb der vorgegebenen ID beendet. :-/

    Wünschen würde ich mir nun nicht nur einen einfachen Fix (würde aber auch reichen), sondern wenn's zeitlich geht eine Möglichkeit neben der ID einen Klassennamen, ggf. sogar mehrere Klassennamen angeben zu können (etwa um nur die Texte aus Header und Description, aber nicht die Bilder ausgeben zu können wenn ich das so mag — oder erst Header dann Bild dann Beschreibung).
    Ich bin in der Umsetzung völlig offen; ein Update von der Quelle z.B. jede Stunde mittels Cronjob und Ausgabe der Resultate aus einer Textdatei vom Server gelesen klingt z.B. enorm vernünftig für mich - der Aufwand steigt dann natürlich um das "Datei schreiben". ^^

    Wunderschön wäre eine fertige Inklusion als "function" für CMSms* … aber den Teil schaffe ich vermutlich selbst recht gut, bzw. lässt sich das ja absprechen.
    Eine -mit oben beschriebenen Fehlern- funktionierende Datei ist vorhanden; FTP-Zugang kann gewährt werden falls benötigt und funktionieren soll das natürlich mit PHP8.1 oder höher.
    Wahrscheinlich übersteigt meine Beschreibung schon den Arbeitsaufwand aber ich möchte sicher sein, dass es keine Missverständnisse gibt.

    *function für CMSms:
    Als Beispiel für das was ich möchte sei genannt:
    https://github.com/svn2github/cmsms/...rrent_date.php - also Übergabe der Werte in Smarty-Variablen, die ich im Template ansprechen kann.
    So wild muss es aber nicht - mir würde schon reichen die Ausgabe mit einem Smarty-Tag wie etwa {kleinanzeigen} zu holen und das Cronjob-Update einer Textdatei z.B. mit einem get-Parameter läuft, oder zwei Dateien, oder, oder, oder…


    Vielen Dank!
Lädt...
X