strategie wyszukiwania duplikatów adresów pocztowych
Próbuję wymyślić metodę znajdowania duplikatów adresów na podstawie wyniku podobieństwa. Rozważ następujące duplikaty adresów:
addr_1 = '# 3 FAIRMONT LINK SOUTH'
addr_2 = '3 FAIRMONT LINK S'
addr_3 = '5703 - 48TH AVE'
adrr_4 = '5703- 48 AVENUE'
Zamierzam zastosować transformację napisów w celu skrócenia długich słów, np. PÓŁNOC -> N, usunąć wszystkie spacje, przecinki i myślniki oraz symbole funtów. Teraz, mając to wyjście, jak mogę porównać addr_3 z resztą adresów i wykryć podobne? Jaki procent podobieństwa byłby bezpieczny? Czy możesz podać prosty kod Pythona?
addr_1 = '3FAIRMONTLINKS'
addr_2 = '3FAIRMONTLINKS'
addr_3 = '570348THAV'
adrr_4 = '570348AV'
Wdzięczny,
Eduardo