Ankündigung

Einklappen
Keine Ankündigung bisher.

Dubletten check für Postadressen

Einklappen

Neue Werbung 2019

Einklappen
X
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge

  • Dubletten check für Postadressen

    Hallo, ich suche ein php tool, um auf Postadressen, die sich in ihrer Schreibweise unterscheiden, eine Dublettenprüfung anzuwenden. Gibt es so etwas fertig oder hat jemand so etwas schon mal gemacht?


  • #2
    Ich kenne Non-PHP Tools dafür, würden dir die was bringen?

    IMHO gibt es keine Tools in PHP dafür, ein Doublettencheck ist nicht trivial und extrem Speicherintensiv - ich denke, je nach Adressbestand wird der Speicher von PHP nicht mehr ausreichen (das Tool, was wir benutzen, belegt für 100.000 Adressen schonmal gerne einige hundert MB RAM)

    Wenn du es tatsächlich selber programmieren willst, meld dich nochmal hier, dann kann man Details durchgehen.. ich würds allerdings nicht unbedingt empfehlen, sondern für etwas fertiges plädieren.
    Über 90% aller Gewaltverbrechen passieren innerhalb von 24 Stunden nach dem Konsum von Brot.

    Kommentar


    • #3
      Dublettencheck mit fuzzy logic ist eine Dienstleistung, die ich anbiete.
      PHP-Code:
      if ($var != 0) {
        
      $var 0;

      Kommentar


      • #4
        Machst du aber auch nicht mit PHP, oder?
        Über 90% aller Gewaltverbrechen passieren innerhalb von 24 Stunden nach dem Konsum von Brot.

        Kommentar


        • #5
          Nein, dafür ist PHP zu langsam.
          PHP-Code:
          if ($var != 0) {
            
          $var 0;

          Kommentar


          • #6
            Vielleicht mal die Geokoordinaten der Adressen ermitteln und diese gruppieren?

            Kommentar


            • #7
              Es geht darum zu erkennen, dass P. Meier, Steinstraße 37, Berlin eine Dublette ist zu Petra Maier, Stienstr. 37, Brelin.
              Mit Geokoordinaten hat das zunächst nichts zu tun.
              PHP-Code:
              if ($var != 0) {
                
              $var 0;

              Kommentar


              • #8
                Sinnvollerweise sollte man die Daten erstmal atomar halten, das wäre schon die halbe Miete.
                --

                „Emoticons machen einen Beitrag etwas freundlicher. Deine wirken zwar fachlich richtig sein, aber meist ziemlich uninteressant.
                Wenn man nur Text sieht, haben viele junge Entwickler keine interesse, diese stumpfen Texte zu lesen.“


                --

                Kommentar


                • #9
                  Ich würde mal eher sagen 1/4 Miete

                  Ich dachte jetzt spontan an Kölner Phonetik, aber bin mir nicht sicher, ob das in diesem Zusammenhang zu gebrauchen ist. Gerade wenn ich mir einen Hochhausblock vorstelle, in dem es tatsächlich eine S. Meier und eine S. Mayer gibt. Außer natürlich man beschränkt sich beim Normalisieren der Adressen auf Dinge wie Str. vs Straße vs Strasse.

                  Kommentar


                  • #10
                    Gerade wenn ich mir einen Hochhausblock vorstelle, in dem es tatsächlich eine S. Meier und eine S. Mayer gibt.
                    Ja gut, da haste verloren. Das kann nicht mal der Postbote entscheiden, wenn auf dem Brief dann „Meyer“ steht.
                    --

                    „Emoticons machen einen Beitrag etwas freundlicher. Deine wirken zwar fachlich richtig sein, aber meist ziemlich uninteressant.
                    Wenn man nur Text sieht, haben viele junge Entwickler keine interesse, diese stumpfen Texte zu lesen.“


                    --

                    Kommentar


                    • #11
                      Mit der Kölner Phonetik habe ich einen halben Tag herumgedoktort. Dieser Algorhythmus ist nicht zu gebrauchen.
                      Beim Dublettencheck in Adressenlisten geht es vor allem darum, Haushaltsdubletten zu eliminieren. Wenn man zu den o.g. Kriterien noch weitere Erfassungsmerkmale hinzunimmt, dann kann man aber auch die beiden Frau Mayer/Meyer im gleichen Hochhaus noch unterscheiden.
                      PHP-Code:
                      if ($var != 0) {
                        
                      $var 0;

                      Kommentar


                      • #12
                        Mit der Kölner Phonetik habe ich einen halben Tag herumgedoktort. Dieser Algorhythmus ist nicht zu gebrauchen.
                        Ist ja auch gar nicht Ziel der Übung, oder? Es geht ja weniger darum, mündlich (phonetisch) übertragene Fehler zu erkennen.

                        Ich würde ne reine Buchstabenanalyse machen. Vorher noch die üblichen Verdächtigen (Str. oder Strasse statt Straße) abfangen und nicht alphanum. Zeichen komplett rauswerfen.
                        --

                        „Emoticons machen einen Beitrag etwas freundlicher. Deine wirken zwar fachlich richtig sein, aber meist ziemlich uninteressant.
                        Wenn man nur Text sieht, haben viele junge Entwickler keine interesse, diese stumpfen Texte zu lesen.“


                        --

                        Kommentar


                        • #13
                          Moin,
                          ich habe das Gefühl, "Levenshtein" wurde noch nicht genannt:
                          PHP: levenshtein - Manual ?
                          http://mcsodbrenner.blogspot.com/
                          Serpent PHP Template Engine: http://code.google.com/p/serpent-php-template-engine/

                          Kommentar

                          Lädt...
                          X