como reconhecer palavras semelhantes com diferença de ortografia

Question

Jun 22, 2010, 09:58 AM

como reconhecer palavras semelhantes com diferença de ortografia

Quero filtrar nomes de clientes duplicados de um banco de dados. Um único cliente pode ter mais de uma entrada no sistema com o mesmo nome, mas com pouca diferença na ortografia. Então, aqui está um exemplo: Um cliente chamado Brook pode ter três entradas no sistema com essas variações:

Brook BertaBruck BertaBiruk Berta

Vamos supor que estamos colocando esse nome em uma coluna do banco de dados. Eu gostaria de conhecer os diferentes mecanismos para identificar essas duplicações, digamos 100.000 registros. Podemos usar expressões regulares em C # para iterar todos os registros ou alguma outra técnica de correspondência de padrões ou exportar esses registros para o que melhor se adequar a essas consultas (SQL com recursos de Expressão Regular)).

Isto é o que eu pensei como uma solução

Escreva um código C # para iterar através de cada registroObtenha apenas as letras consoantes em ordem (no caso acima: BrKBrt)Procure o mesmo padrão consoante nos outros registros, considerando letras que soam semelhantes como (C, K) (C, S), (F, PH)

Então, por favor envie quaisquer idéias.