2 Verschiedene Kodierungen in einer Tabelle? - php.de

X

Runnerle

Dabei seit: 09.11.2008

Beiträge: 17
#1

2 Verschiedene Kodierungen in einer Tabelle?

21.04.2010, 16:22

Hallo alle zusammen, ich weiß zwar nicht ob es jetzt eine Anfängerfrage ist oder nicht.

Ich habe ein Problem mit den Daten die ich von Mysql bekomme.

Ich habe eine Tabelle text. Da sind nun ca 1000 einträge drin. Manche wurden übers cms eingepflegt und die anderen wiederum wurder per csv importiert.

So weit so gut, wenn ich jedoch jetzt texte auslese wird die eine hälfte korrekt dargestellt und die andere zeigen nur kodierungsfehler.

Wie kann das sein? Eine Tabelle kann doch nur eine Kodierung unterstützen, was für mich hieße das die daten die da drin stehen ebenfalls alle gleich kodiert sind

Wäre für jede hilfe Dankbar

mfg Runnerle
Stichworte: -
lstegelitz

Dabei seit: 07.09.2009

Beiträge: 8771
#2

21.04.2010, 16:27

Die Daten waren beim Import falsch (in einem anderen Encoding) kodiert...

Über 90% aller Gewaltverbrechen passieren innerhalb von 24 Stunden nach dem Konsum von Brot.
Kommentar
Runnerle

Dabei seit: 09.11.2008

Beiträge: 17
#3

21.04.2010, 16:31

Das hatte ich fast schon vermutet

Kann ich das irgendwie ohne Reimport beheben?

mfg
Kommentar
feeela

Dabei seit: 20.01.2010

Beiträge: 108
#4

21.04.2010, 16:53

Zitat von Runnerle Beitrag anzeigen

Das hatte ich fast schon vermutet

Kann ich das irgendwie ohne Reimport beheben?

mfg

1. Es können in einer Tabelle sehr wohl mehrere Kodierungen in verschiedenen Spalten existieren;

2. Wenn du jeweils weißt, wie die ursprüngliche Kodierung war und wie die Daten jetzt gespeichert sind, kannst du durchaus die Umwandlungsfunktionen von MySQL nuzten um was zu retten...

Je grösser der Dachschaden, desto schöner der Ausblick zum Himmel. - [WIKI]Karlheinz Deschner[/WIKI]
Kommentar
nikosch

Dabei seit: 21.05.2008

Beiträge: 46002
#5

21.04.2010, 16:56

Eine Tabelle kann doch nur eine Kodierung unterstützen

Ein Feld... , ja. Das Problem bei Dir ist, dass die Codierung des nicht passenden Imports/CMS-INSERT als das entspr. Charset interpretiert wurde und damit Murx ist. Zu retten ist da i.A. nix. Schon gar nicht, wenn Du die Datensätze nicht unterscheiden kannst.

[COLOR="#F5F5FF"]--[/COLOR]
[COLOR="Gray"][SIZE="6"][FONT="Georgia"][B]^^ O.O[/B][/FONT] [/SIZE]
„Emoticons machen einen Beitrag etwas freundlicher. Deine wirken zwar fachlich richtig sein, aber meist ziemlich uninteressant.
[URL="http://www.php.de/javascript-ajax-und-mehr/107400-draggable-sorttable-setattribute.html#post788799"][B]Wenn man nur Text sieht, haben viele junge Entwickler keine interesse, diese stumpfen Texte zu lesen.“[/B][/URL][/COLOR]
[COLOR="#F5F5FF"]
--[/COLOR]
Kommentar
Runnerle

Dabei seit: 09.11.2008

Beiträge: 17
#6

21.04.2010, 17:10

Zitat von feeela Beitrag anzeigen

2. Wenn du jeweils weißt, wie die ursprüngliche Kodierung war und wie die Daten jetzt gespeichert sind, kannst du durchaus die Umwandlungsfunktionen von MySQL nuzten um was zu retten...

Zitat von nikosch Beitrag anzeigen

Ein Feld... , ja. Das Problem bei Dir ist, dass die Codierung des nicht passenden Imports/CMS-INSERT als das entspr. Charset interpretiert wurde und damit Murx ist. Zu retten ist da i.A. nix. Schon gar nicht, wenn Du die Datensätze nicht unterscheiden kannst.

Die meinungen sind da wohl gespalten :/

aber wenn ich alle texte durchlaufen würde und per str_replace oä.
aus einem Ã¤ ein ä machen würde?

Wer mich mal dahinter klemmen.

mfg
Kommentar
feeela

Dabei seit: 20.01.2010

Beiträge: 108
#7

21.04.2010, 17:45
Zuletzt geändert von feeela; 21.04.2010, 17:58.

Zitat von Runnerle Beitrag anzeigen

aber wenn ich alle texte durchlaufen würde und per str_replace oä.
aus einem Ã¤ ein ä machen würde?

Wenn du nur deutsche Texte hast, ist das eine (umständliche) Möglichkeit. Solltest du noch andere Sprachen mit Sonderzeichen dabei haben ist das ein enormer Aufwand. Von Sprachen, deren Zeichen in Mulitbyte-Kodierungen gespeichert werden ganz zu schweigen...

Zitat von nikosch Beitrag anzeigen

Ein Feld...

Mmmh, hatte ich wohl erst anders verstanden. In einer Spalte wirds natürlich schwer. Unrettbar ist aber gar nix. Die Variablen sind nur der investierte Zeitaufwand und die nervliche Belastbarkeit. Ich habe auch schon eine vermurkste DB wieder her gestellt. Das hat dann ca. eine volle Woche gedauert, um ein Skript zu bauen, welches alle Sonderfälle abdeckt - immerhin bezahlt.
In meinem Fall waren da alle Möglichen Sprachen (inkl. ru, ja & zh) in den Kodierungen ISO-8859-1, ISO-8859-15 und UTF-8 (jeweils teilweise mit HTML-Entities) wild durcheinander gespeichert. Das geht schon, ist aber ein Riesenaufwand. Ein paar Ã¤ sind nix im Vergleich zu japanisch in ISO-8859-1.

Je grösser der Dachschaden, desto schöner der Ausblick zum Himmel. - [WIKI]Karlheinz Deschner[/WIKI]
Kommentar
nikosch

Dabei seit: 21.05.2008

Beiträge: 46002
#8

21.04.2010, 17:58

Unrettbar ist aber gar nix.

Ich denke schon, dass es Konvertierungen gibt, die nicht umkehrbar sind.

Außerdem - wozu der AUfwand, wenn die Importdaten noch existieren?

[COLOR="#F5F5FF"]--[/COLOR]
[COLOR="Gray"][SIZE="6"][FONT="Georgia"][B]^^ O.O[/B][/FONT] [/SIZE]
„Emoticons machen einen Beitrag etwas freundlicher. Deine wirken zwar fachlich richtig sein, aber meist ziemlich uninteressant.
[URL="http://www.php.de/javascript-ajax-und-mehr/107400-draggable-sorttable-setattribute.html#post788799"][B]Wenn man nur Text sieht, haben viele junge Entwickler keine interesse, diese stumpfen Texte zu lesen.“[/B][/URL][/COLOR]
[COLOR="#F5F5FF"]
--[/COLOR]
Kommentar
feeela

Dabei seit: 20.01.2010

Beiträge: 108
#9

21.04.2010, 18:05

Zitat von nikosch Beitrag anzeigen

Außerdem - wozu der AUfwand, wenn die Importdaten noch existieren?

Frag das den TE!

Je grösser der Dachschaden, desto schöner der Ausblick zum Himmel. - [WIKI]Karlheinz Deschner[/WIKI]
Kommentar
Runnerle

Dabei seit: 09.11.2008

Beiträge: 17
#10

21.04.2010, 19:48

Zitat von feeela Beitrag anzeigen

Frag das den TE!

Import Daten existieren nicht mehr, und zum teil wurden Datensätze schon angepasst.

Zitat von feeela Beitrag anzeigen

In meinem Fall waren da alle Möglichen Sprachen (inkl. ru, ja & zh) in den Kodierungen ISO-8859-1, ISO-8859-15 und UTF-8 (jeweils teilweise mit HTML-Entities) wild durcheinander gespeichert. Das geht schon, ist aber ein Riesenaufwand. Ein paar Ã¤ sind nix im Vergleich zu japanisch in ISO-8859-1.

Hört sich wirklich sehr exrem an, sind aber gott seit dank nur Deutsch.

Werd mich jetzt mal ans script setzen und hoffen, dass die Rechnung aufgeht.

Vielen Dank an alle!

mfg
Kommentar

Vorherige Weiter

Lädt...

X