Strategien zum Auffinden doppelter Postanschriften

Question

Sep 02, 2009, 08:11 PM

duplicates python mailing similarity street-address

Strategien zum Auffinden doppelter Postanschriften

Ich versuche, eine Methode zum Auffinden doppelter Adressen zu finden, die auf einer Ähnlichkeitsbewertung basiert. Betrachten Sie diese doppelten Adressen:

addr_1 = '# 3 FAIRMONT LINK SOUTH'
addr_2 = '3 FAIRMONT LINK S'

addr_3 = '5703 - 48TH AVE'
adrr_4 = '5703- 48 AVENUE'

Ich plane, eine Zeichenfolgentransformation anzuwenden, um lange Wörter wie NORTH -> N abzukürzen und alle Leerzeichen, Kommas und Bindestriche sowie Pfundsymbole zu entfernen. Wie kann ich nun mit dieser Ausgabe addr_3 mit den restlichen Adressen vergleichen und ähnliche ermitteln? Welcher Prozentsatz der Ähnlichkeit wäre sicher? Könnten Sie einen einfachen Python-Code dafür bereitstellen?

addr_1 = '3FAIRMONTLINKS'
addr_2 = '3FAIRMONTLINKS'

addr_3 = '570348THAV'
adrr_4 = '570348AV'

Dankbar,

Eduardo

Antworten auf die Frage(6)

Top Fragen

0 die antwort

Effizient prüfen, ob ein Element in einer Liste mindestens n-mal vorkommt

0 die antwort

cPickle Fehler bei der Verwendung von pathos.multiprocessing?

0 die antwort

So konsolidieren Sie ähnliche Einträge in einer sortierten Liste ohne Ausgabe in ein Arbeitsblatt mit VBA / Excel

0 die antwort

wie wurde Array.Sort in .NET implementiert?

0 die antwort

Drehe eine diagonale Linie in einem 2D 3 x 3 Raster - Rotationsmatrix benötigt?

Du bist sehr aktiv! Es ist großartig!

Strategien zum Auffinden doppelter Postanschriften

Antworten auf die Frage(6)

Ihre Antwort auf die Frage

Top Fragen