Ankündigung

Einklappen
Keine Ankündigung bisher.

Informations-Extraktion

Einklappen

Neue Werbung 2019

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Informations-Extraktion

    Hey Leute ich hätte da mal eine Frage bzgl einer Herangehensweise,
    Mir geht es darum, möglichst genau ganz bestimmte Daten aus html-Code zu extrahieren.

    Ich habe hier mal zwei Beispiel-Codes:
    PHP-Code:
    <p>Straße 1a</p>
    <
    p>12345 Berlin</p
    und
    PHP-Code:
    <p>
    Straße 1a
    <br>
    12345 Berlin
    </p
    Nun hatte ich überlegt wie ich möglichst effizient die Addresse(Straße 1a)
    aus beiden Quellcodes extrahieren kann(möglichst mit derselben Methode).

    Folgende Überlegungen hatte ich:

    1. Für jede Quellcodestruktur eine passende Methode anfertigen.(würde sehr lange dauern, da es ja sehr viele mögliche Strukturen geben wird)

    2. Den kompletten Quellcode nach einem String parsen, etwa:
    PHP-Code:
    $xml = new DOMDocument();
    libxml_use_internal_errors(true);

    $xml->loadHTMLFile($url);
    libxml_clear_errors(); 

    // Kompletten Quellcode parsen... 
    => Aber den hätte ich ja nur den String 'Straße' und das ist leider nur die Hälfte der Addresse.

    Deswegen wollte ich euch fragen, ob ihr geeignete Methoden für diese Vorgehensweine kennt.

    Gruß und danke!
Lädt...
X