Ankündigung
Einklappen
Keine Ankündigung bisher.
Dubletten check für Postadressen
Einklappen
Neue Werbung 2019
Einklappen
X
-
Dubletten check für Postadressen
Hallo, ich suche ein php tool, um auf Postadressen, die sich in ihrer Schreibweise unterscheiden, eine Dublettenprüfung anzuwenden. Gibt es so etwas fertig oder hat jemand so etwas schon mal gemacht? -
-
Mit der Kölner Phonetik habe ich einen halben Tag herumgedoktort. Dieser Algorhythmus ist nicht zu gebrauchen.
Ich würde ne reine Buchstabenanalyse machen. Vorher noch die üblichen Verdächtigen (Str. oder Strasse statt Straße) abfangen und nicht alphanum. Zeichen komplett rauswerfen.
Einen Kommentar schreiben:
-
Mit der Kölner Phonetik habe ich einen halben Tag herumgedoktort. Dieser Algorhythmus ist nicht zu gebrauchen.
Beim Dublettencheck in Adressenlisten geht es vor allem darum, Haushaltsdubletten zu eliminieren. Wenn man zu den o.g. Kriterien noch weitere Erfassungsmerkmale hinzunimmt, dann kann man aber auch die beiden Frau Mayer/Meyer im gleichen Hochhaus noch unterscheiden.
Einen Kommentar schreiben:
-
Gerade wenn ich mir einen Hochhausblock vorstelle, in dem es tatsächlich eine S. Meier und eine S. Mayer gibt.
Einen Kommentar schreiben:
-
Ich würde mal eher sagen 1/4 Miete
Ich dachte jetzt spontan an Kölner Phonetik, aber bin mir nicht sicher, ob das in diesem Zusammenhang zu gebrauchen ist. Gerade wenn ich mir einen Hochhausblock vorstelle, in dem es tatsächlich eine S. Meier und eine S. Mayer gibt. Außer natürlich man beschränkt sich beim Normalisieren der Adressen auf Dinge wie Str. vs Straße vs Strasse.
Einen Kommentar schreiben:
-
Sinnvollerweise sollte man die Daten erstmal atomar halten, das wäre schon die halbe Miete.
Einen Kommentar schreiben:
-
Es geht darum zu erkennen, dass P. Meier, Steinstraße 37, Berlin eine Dublette ist zu Petra Maier, Stienstr. 37, Brelin.
Mit Geokoordinaten hat das zunächst nichts zu tun.
Einen Kommentar schreiben:
-
Ein Gast antworteteVielleicht mal die Geokoordinaten der Adressen ermitteln und diese gruppieren?
Einen Kommentar schreiben:
-
Dublettencheck mit fuzzy logic ist eine Dienstleistung, die ich anbiete.
Einen Kommentar schreiben:
-
Ich kenne Non-PHP Tools dafür, würden dir die was bringen?
IMHO gibt es keine Tools in PHP dafür, ein Doublettencheck ist nicht trivial und extrem Speicherintensiv - ich denke, je nach Adressbestand wird der Speicher von PHP nicht mehr ausreichen (das Tool, was wir benutzen, belegt für 100.000 Adressen schonmal gerne einige hundert MB RAM)
Wenn du es tatsächlich selber programmieren willst, meld dich nochmal hier, dann kann man Details durchgehen.. ich würds allerdings nicht unbedingt empfehlen, sondern für etwas fertiges plädieren.
Einen Kommentar schreiben:
Einen Kommentar schreiben: