Ankündigung

Einklappen
Keine Ankündigung bisher.

Sphider Umlaute und MySQL Fehler

Einklappen

Neue Werbung 2019

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Sphider Umlaute und MySQL Fehler

    Hallo zusammen!

    Ich möchte einen kleinen themenspezifischen Webindex erstellen. Dazu habe ich mir das Script Sphider ausgesucht. Soweit habe ich mich in das Script reingefuchst, und es funktioniert fast wie es soll. Es gibt da nur ein Problemmit Umlauten. Immer wenn ich eine Seite indexieren möchte, in der Umlaute vorkommen, oder auch Sonderzeichen aus anderen Sprachen, werden diese Wörter nicht in den Keyword-Index aufgenommen, und es gibt eine Fehlermeldung von MySQL, mit der ich so nichts anfangen kann.

    Code:
    1. Retrieving: http://de.wikipedia.org/wiki/Waldkindergarten at 19:36:46.
    Size of page: 34.52kb. Starting indexing at 19:36:46. Incorrect string value: '\xE3\xFFend' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4ten' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4nder' for column 'keyword' at row 1Incorrect string value: '\xE3\xB6glic...' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCnder...' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCndet...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4tter...' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCr' for column 'keyword' at row 1Incorrect string value: '\xE3\xA5rden' for column 'keyword' at row 1Incorrect string value: '\xE3\xA5rden' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4chst' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4nisc...' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCgst' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4nkun...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4ge' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4die' for column 'keyword' at row 1Incorrect string value: '\xE3\xB6htem' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4hrli...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4nden' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCndet' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4nder...' for column 'keyword' at row 1Incorrect string value: '\xE3\xFFes' for column 'keyword' at row 1Incorrect string value: '\xE3\xB6\xE3\xFFe' for column 'keyword' at row 1Incorrect string value: '\xE3\xB6\xE3\xFFer...' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCnde' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCndet...' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCndun...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA5rden' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCnter' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCblic...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4fner' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4ufig' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4ufig...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4dago...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4rten' for column 'keyword' at row 1Incorrect string value: '\xE3\xB6rm\xE3\xA5...' for column 'keyword' at row 1Incorrect string value: '\xE3\xB6llne...' for column 'keyword' at row 1Incorrect string value: '\xE3\xB6nnen' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4mrbe...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4rmbe...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4rmbe...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA5rten...' for column 'keyword' at row 1Incorrect string value: '\xE3\xB6glic...' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCnste...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4ume' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4nden' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4he' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCtzel' for column 'keyword' at row 1Incorrect string value: '\xE3\xB6nlic...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4dago...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4dago...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4dago...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4umen' for column 'keyword' at row 1Incorrect string value: '\xE3\xFFen' for column 'keyword' at row 1Incorrect string value: '\xE3\xFFt' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCsse' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCssel' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4higk...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4te' for column 'keyword' at row 1Incorrect string value: '\xE3\xB6ller...' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCdwes...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4t' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4gt' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4glic...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4dago...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4lle' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4t' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCtzen...' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCtzt' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCgbar' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4ssig...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4ge' for column 'keyword' at row 1Incorrect string value: '\xE3\xB6ffen...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4dago...' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCtte' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4dago...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4rten' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4rten' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4dago...' for column 'keyword' at row 1Incorrect string value: '\xE2\xAE' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4nde' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCrtte...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4llig...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4chst' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCsse' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4ndig...' for column 'keyword' at row 1Incorrect string value: '\xE3\xA4tzli...' for column 'keyword' at row 1Incorrect string value: '\xE3\x84nder...' for column 'keyword' at row 1Incorrect string value: '\xE3\x96koto...' for column 'keyword' at row 1Incorrect string value: '\xE3\x96ster...' for column 'keyword' at row 1Incorrect string value: '\xE3\x9Cber' for column 'keyword' at row 1Incorrect string value: '\xE3\x9Cbers...' for column 'keyword' at row 1Incorrect string value: '\xE3\xBCber' for column 'keyword' at row 1Incorrect string value: '\xF0\x91\xF1\x9A\xF0\xBB...' for column 'keyword' at row 1
    Indexed
    Links found: 49. New links: 49
    
    Completed at 19:36:47.
    Mein grundlegendes Problem ist, dass ich alleine mit der Fehlermeldung so nichts anfangen kann. Es gibt keinen Hinweis auf die verursachende Stelle.

    Ich hoffe hier kennt jemand das Script von Sphider - a php spider and search engine, oder weiß mit der Fehlermeldung etwas anzufangen.


  • #2
    Zitat von xnic Beitrag anzeigen
    Mein grundlegendes Problem ist, dass ich alleine mit der Fehlermeldung so nichts anfangen kann. Es gibt keinen Hinweis auf die verursachende Stelle.
    Ursache ist die Zeichenkodierung dessen, was du eingelesen hast.
    Wenn das nicht zu deiner zum speichern verwendeten Kodierung passt, musst du es ggf. erst mal umkodieren.

    (Und frag mich jetzt nicht reflexartig, „und wie geht das?“ - das ist nämlich ein komplexeres Thema, und Grundlagenwissen über sowas sollte man sich aneignen, bevor man eigene „Spider“ baut. Gerade die von Anfängern gebauten Dinger laufen nämlich gern Amok, verursachen durch falsches Vorgehen unverhältnismäßig viel Traffic bei den ausgelesenen Seiten, etc. - deshalb habe ich immer ernsthafte Bedenken, wenn Anfänger sich an sowas versuchen.)

    Kommentar


    • #3
      Man gut, dass ich kein Anfänger bin. Und dieser Spider wird sicher nicht Amok laufen. Da bin ich ziemlich sicher. Der wird nur vom lokalen Rechner losgelassen und darf die Domain, auf die er losgelassen wird, auch nicht verlassen. Ausserdem geschieht das Spidern unter meiner Beobachtung. Bitte verwechsel das Vorhaben jetzt nicht mit einem Versuch Big G konkurrenz zu machen. Aber das soll hier auch nicht das Thema sein.

      Da alles auf UTF-8 läuft, muss ich eben mal schauen, ob ich irgendwo einen Ansatzpunkt finde, wo es mit der Kodierung nicht hinhaut.

      Hättest du sonst eine bessere Alternative für mich (außer jetzt "Lass es sein!") ?

      Kommentar

      Lädt...
      X