Strategien zum Auffinden doppelter Postanschriften

Ich versuche, eine Methode zum Auffinden doppelter Adressen zu finden, die auf einer Ähnlichkeitsbewertung basiert. Betrachten Sie diese doppelten Adressen:

addr_1 = '# 3 FAIRMONT LINK SOUTH'
addr_2 = '3 FAIRMONT LINK S'

addr_3 = '5703 - 48TH AVE'
adrr_4 = '5703- 48 AVENUE'

Ich plane, eine Zeichenfolgentransformation anzuwenden, um lange Wörter wie NORTH -> N abzukürzen und alle Leerzeichen, Kommas und Bindestriche sowie Pfundsymbole zu entfernen. Wie kann ich nun mit dieser Ausgabe addr_3 mit den restlichen Adressen vergleichen und ähnliche ermitteln? Welcher Prozentsatz der Ähnlichkeit wäre sicher? Könnten Sie einen einfachen Python-Code dafür bereitstellen?

addr_1 = '3FAIRMONTLINKS'
addr_2 = '3FAIRMONTLINKS'

addr_3 = '570348THAV'
adrr_4 = '570348AV'

Dankbar,

Eduardo

Antworten auf die Frage(6)

Ihre Antwort auf die Frage