Как я могу создать порог для похожих строк, используя расстояние Левенштейна, и учесть опечатки?

Недавно мы столкнулись с интересной проблемой на работе, когда мы обнаружили дубликаты данных, представленных пользователем в нашей базе данных. Мы поняли, что расстояние Левенштейна между большинством этих данных было просто разницей между двумя рассматриваемыми строками. Это означает, что если мы просто добавляем символы из одной строки в другую, то в итоге получим одну и ту же строку, и для большинства вещей это кажется наилучшим способом учета дублирующихся элементов.

Мы также хотим учитывать опечатки. Поэтому в среднем мы начали задумываться о том, как часто люди делают опечатки в сети за слово, и стараются использовать эти данные на таком расстоянии. Мы не смогли найти такую ​​статистику.

Есть ли способ учесть опечатки при создании такого порога для совпадения данных?

Дайте мне знать, если я могу уточнить!

Ответы на вопрос(2)

Ваш ответ на вопрос