¿Cómo puedo crear un umbral para cadenas similares usando la distancia de Levenshtein y tener en cuenta los errores tipográficos?

Question

Jul 27, 2010, 05:29 AM

¿Cómo puedo crear un umbral para cadenas similares usando la distancia de Levenshtein y tener en cuenta los errores tipográficos?

Recientemente encontramos un problema interesante en el trabajo donde descubrimos datos duplicados enviados por el usuario en nuestra base de datos. Nos dimos cuenta de que la distancia de Levenshtein entre la mayoría de estos datos era simplemente la diferencia entre las 2 cadenas en cuestión. Eso indica que si simplemente agregamos caracteres de una cadena a la otra, terminamos con la misma cadena, y para la mayoría de las cosas, esta parece ser la mejor manera para que tengamos en cuenta los elementos que están duplicados.

También queremos dar cuenta de los errores tipográficos. Entonces comenzamos a pensar en promedio con qué frecuencia las personas hacen errores tipográficos en línea por palabra, y tratamos de usar esos datos dentro de esta distancia. No pudimos encontrar ninguna estadística de este tipo.

¿Hay alguna forma de tener en cuenta los errores tipográficos al crear este tipo de umbral para una coincidencia de datos?

¡Avísame si puedo aclarar!