função hash para indexar texto semelhante

Question

Jul 14, 2010, 05:17 PM

função hash para indexar texto semelhante

Estou pesquisando sobre uma espécie de função hash para indexar texto semelhante. Por exemplo, se tivermos dois textos muito longos chamados "A" e "B", em que A e B diferem pouco, a função hash (chamada H) aplicada a A e B deve retornar o mesmo número.

Então H (A) = H (B) onde A e B são textos semelhantes.

Eu tentei o "DoubleMetaphone" (eu uso texto em italiano), mas vi que depende muito dos prefixos de string. Por exemplo:

A = "Este é o texto muito longo que eu quero hash" B = "Este é o próprio"

==> doubleMetaPhone (A) = doubleMetaPhone (B)

E isso não é tão bom para mim, porque cadeias de caracteres com o mesmo prefixo podem ser comparadas como semelhantes e eu não quero isso.

Alguém poderia me sugerir outra maneira?