strategie wyszukiwania duplikatów adresów pocztowych

Próbuję wymyślić metodę znajdowania duplikatów adresów na podstawie wyniku podobieństwa. Rozważ następujące duplikaty adresów:

addr_1 = '# 3 FAIRMONT LINK SOUTH'
addr_2 = '3 FAIRMONT LINK S'

addr_3 = '5703 - 48TH AVE'
adrr_4 = '5703- 48 AVENUE'

Zamierzam zastosować transformację napisów w celu skrócenia długich słów, np. PÓŁNOC -> N, usunąć wszystkie spacje, przecinki i myślniki oraz symbole funtów. Teraz, mając to wyjście, jak mogę porównać addr_3 z resztą adresów i wykryć podobne? Jaki procent podobieństwa byłby bezpieczny? Czy możesz podać prosty kod Pythona?

addr_1 = '3FAIRMONTLINKS'
addr_2 = '3FAIRMONTLINKS'

addr_3 = '570348THAV'
adrr_4 = '570348AV'

Wdzięczny,

Eduardo

questionAnswers(6)

yourAnswerToTheQuestion