Strategien zum Auffinden doppelter Postanschriften
Ich versuche, eine Methode zum Auffinden doppelter Adressen zu finden, die auf einer Ähnlichkeitsbewertung basiert. Betrachten Sie diese doppelten Adressen:
addr_1 = '# 3 FAIRMONT LINK SOUTH'
addr_2 = '3 FAIRMONT LINK S'
addr_3 = '5703 - 48TH AVE'
adrr_4 = '5703- 48 AVENUE'
Ich plane, eine Zeichenfolgentransformation anzuwenden, um lange Wörter wie NORTH -> N abzukürzen und alle Leerzeichen, Kommas und Bindestriche sowie Pfundsymbole zu entfernen. Wie kann ich nun mit dieser Ausgabe addr_3 mit den restlichen Adressen vergleichen und ähnliche ermitteln? Welcher Prozentsatz der Ähnlichkeit wäre sicher? Könnten Sie einen einfachen Python-Code dafür bereitstellen?
addr_1 = '3FAIRMONTLINKS'
addr_2 = '3FAIRMONTLINKS'
addr_3 = '570348THAV'
adrr_4 = '570348AV'
Dankbar,
Eduardo