Hallo zusammen,
ich habe mich jetzt recht lange damit befasst, wie man in PHP zuverlässig Charset-Detection umsetzen kann... leider erfolglos. Zunächst mal zu meinen Recherchen:
Meine Anforderungen:
Kennt jemand da eine Möglichkeit? Bzw. was ist das zuverlässigste, was in PHP geht?
ich habe mich jetzt recht lange damit befasst, wie man in PHP zuverlässig Charset-Detection umsetzen kann... leider erfolglos. Zunächst mal zu meinen Recherchen:
- Charset-Detection ist eigentlich ein unlösbares Problem, das ist mir bekannt - es gibt aber Ansätze, die es relativ zuverlässig über Heuristik möglich machen
- mb_detect_encoding gehört nach meinen Experimenten nicht zu diesen "zuverlässigen" Ansätzen, da er in vielen Fällen false oder ein falsches Encoding zu Tage fördert (selbst mit PHP 7.3)
- Ein Beispiel für Charset-Detection, das "gut" funktoniert, ist https://github.com/Joungkyun/libchardet
Meine Anforderungen:
- Ich möchte so zuverlässig wie möglich das verwendete Encoding / Charset einer Textdatei ermitteln können
- Ich möchte nicht, dass man dabei auf einige wenige Charsets begrenzen muss, die es vielleicht sein könnten
- Es muss eine native-PHP library oder eine gebräuchliche extension sein, nicht irgendwas abgefahrenes wie eine eigene Extension, ein Konsolen-Wrapper oder ein COM-Objekt-Mapper
Kennt jemand da eine Möglichkeit? Bzw. was ist das zuverlässigste, was in PHP geht?
Kommentar