Ankündigung

Einklappen
Keine Ankündigung bisher.

Seite parsen Charset unbekannt.

Einklappen

Neue Werbung 2019

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Seite parsen Charset unbekannt.

    Schönen Sonntag Nachmittag allen.

    Ich versuche mich wieder am Website Parsen und bin auf ein mir unbekanntest Problem gestoßen.

    Fall:
    Möchte gerne die Webseite: Reisewelt Polen Hotels Pensionen Ferienhäuser Urlaub Kur und Wellness parsen und wieder ausgeben.

    Problem:
    Die Sonderzeichen werden mir als ? angezeigt.

    Versuchte Lösungen:

    1. Normalerweise wird im Responde der Charset mitgeliefert und daran kann ich erkennen ob UTF-8 kodiert oder nicht.

    Die Webseite liefert aber keinen Charset mit.

    Habe auch schon versucht den Charset zu analysieren, mb_detect gibt mir aber UTF-8 zurück.

    PHP-Code:
    $site file_get_contents('http://www.polen-reisen.de');
    $charset mb_detect_encoding ($site); 

    Vielleicht noch Jemand eine Idee, ob es irgendwie möglich ist den Charset zu beeinflussen?

    Mein Ziel ist es die Sonderzeichen richtig anzuzeigen.

    Danke euch


  • #2
    Nachtrag:

    Bin auf die Idee gekommen einfach die fehlerhaften Sonderzeichen in Html Code umzuwandeln, leider werden diese dann aber nicht mehr zurück konvertiert, weis jemand wieso??

    PHP-Code:
    $content htmlspecialchars($contentENT_NOQUOTES);
    $content html_entity_decode($contentENT_NOQUOTES'UTF-8'); 

    Kommentar


    • #3
      Verstehe ich nicht, wenn ich den Link öffne und in den Quelltext schaue, steht dort
      Code:
      <meta http-equiv="Content-Type" content="text/html; charset=iso-8859-1">
      Über 90% aller Gewaltverbrechen passieren innerhalb von 24 Stunden nach dem Konsum von Brot.

      Kommentar


      • #4
        Du musst die Response auslesen und da im Header den Content-Type auslesen, alternativ den <meta>-Tag im HTML, wie es Istegelitz gepostet hat.
        "Mein Name ist Lohse, ich kaufe hier ein."

        Kommentar

        Lädt...
        X