Hallo, ich suche ein php tool, um auf Postadressen, die sich in ihrer Schreibweise unterscheiden, eine Dublettenprüfung anzuwenden. Gibt es so etwas fertig oder hat jemand so etwas schon mal gemacht?
Ankündigung
Einklappen
Keine Ankündigung bisher.
Dubletten check für Postadressen
Einklappen
Neue Werbung 2019
Einklappen
X
-
-
Ich kenne Non-PHP Tools dafür, würden dir die was bringen?
IMHO gibt es keine Tools in PHP dafür, ein Doublettencheck ist nicht trivial und extrem Speicherintensiv - ich denke, je nach Adressbestand wird der Speicher von PHP nicht mehr ausreichen (das Tool, was wir benutzen, belegt für 100.000 Adressen schonmal gerne einige hundert MB RAM)
Wenn du es tatsächlich selber programmieren willst, meld dich nochmal hier, dann kann man Details durchgehen.. ich würds allerdings nicht unbedingt empfehlen, sondern für etwas fertiges plädieren.
-
-
-
Gast -
Es geht darum zu erkennen, dass P. Meier, Steinstraße 37, Berlin eine Dublette ist zu Petra Maier, Stienstr. 37, Brelin.
Mit Geokoordinaten hat das zunächst nichts zu tun.
Kommentar
-
Ich würde mal eher sagen 1/4 Miete
Ich dachte jetzt spontan an Kölner Phonetik, aber bin mir nicht sicher, ob das in diesem Zusammenhang zu gebrauchen ist. Gerade wenn ich mir einen Hochhausblock vorstelle, in dem es tatsächlich eine S. Meier und eine S. Mayer gibt. Außer natürlich man beschränkt sich beim Normalisieren der Adressen auf Dinge wie Str. vs Straße vs Strasse.
Kommentar
-
Mit der Kölner Phonetik habe ich einen halben Tag herumgedoktort. Dieser Algorhythmus ist nicht zu gebrauchen.
Beim Dublettencheck in Adressenlisten geht es vor allem darum, Haushaltsdubletten zu eliminieren. Wenn man zu den o.g. Kriterien noch weitere Erfassungsmerkmale hinzunimmt, dann kann man aber auch die beiden Frau Mayer/Meyer im gleichen Hochhaus noch unterscheiden.
Kommentar
-
Ist ja auch gar nicht Ziel der Übung, oder? Es geht ja weniger darum, mündlich (phonetisch) übertragene Fehler zu erkennen.Mit der Kölner Phonetik habe ich einen halben Tag herumgedoktort. Dieser Algorhythmus ist nicht zu gebrauchen.
Ich würde ne reine Buchstabenanalyse machen. Vorher noch die üblichen Verdächtigen (Str. oder Strasse statt Straße) abfangen und nicht alphanum. Zeichen komplett rauswerfen.
Kommentar
-
Kommentar


Kommentar