стратегии поиска дублирующих почтовых адресов
Я пытаюсь найти метод поиска дублирующих адресов, основанный на показателе сходства. Рассмотрим эти дубликаты адресов: я
addr_1 = '# 3 FAIRMONT LINK SOUTH'
addr_2 = '3 FAIRMONT LINK S'
addr_3 = '5703 - 48TH AVE'
adrr_4 = '5703- 48 AVENUE'
я планирую применить некоторые строковые преобразования, чтобы сделать длинные слова сокращенными, как NORTH -> N, удалите все пробелы, запятые и тире и символы фунта. Теперь, имея этот вывод, как я могу сравнить addr_3 с остальными адресами и обнаружить похожие? Какой процент сходства будет безопасным? Не могли бы вы предоставить простой код Python для этого?
addr_1 = '3FAIRMONTLINKS'
addr_2 = '3FAIRMONTLINKS'
addr_3 = '570348THAV'
adrr_4 = '570348AV'
Благодарный,
Эдуардо