Como criar um limite para cadeias semelhantes usando a distância de Levenshtein e considerar erros de digitação?

Question

Jul 27, 2010, 05:29 AM

Como criar um limite para cadeias semelhantes usando a distância de Levenshtein e considerar erros de digitação?

Recentemente, encontramos um problema interessante no trabalho, onde descobrimos dados duplicados enviados por usuários em nosso banco de dados. Percebemos que a distância de Levenshtein entre a maioria desses dados era simplesmente a diferença entre as duas strings em questão. Isso indica que, se simplesmente adicionamos caracteres de uma string na outra, acabamos com a mesma string e, na maioria das vezes, essa parece ser a melhor maneira de contabilizarmos itens duplicados.

Também queremos dar conta de erros de digitação. Então começamos a pensar em média com que frequência as pessoas cometem erros de digitação on-line por palavra e tentam usar esses dados a essa distância. Não foi possível encontrar nenhuma estatística desse tipo.

Existe alguma maneira de explicar erros de digitação ao criar esse tipo de limite para uma correspondência de dados?

Deixe-me saber se eu posso esclarecer!