Cómo reconocer palabras similares con diferencias en la ortografía

Question

Jun 22, 2010, 09:58 AM

Cómo reconocer palabras similares con diferencias en la ortografía

Quiero filtrar nombres de clientes duplicados de una base de datos. Un solo cliente puede tener más de una entrada al sistema con el mismo nombre pero con poca diferencia en la ortografía. Así que aquí hay un ejemplo: un cliente llamado Brook puede tener tres entradas al sistema con estas variaciones:

Brook BertaBruck BertaBiruk Berta

Supongamos que estamos poniendo este nombre en una columna de la base de datos. Me gustaría conocer los diferentes mecanismos para identificar tales duplicaciones de forma digamos unos 100,000 registros. Podemos usar expresiones regulares en C # para iterar a través de todos los registros o alguna otra técnica de coincidencia de patrones o podemos exportar estos registros a lo que mejor se adapte a tales consultas (SQL con capacidades de expresión regular).

Esto es lo que pensé como solución.

Escriba un código C # para recorrer cada registroObtenga solo las letras consonantes en orden (en el caso anterior: BrKBrt)Busque el mismo patrón de consonancia de los otros registros considerando letras que suenan similares como (C, K) (C, S), (F, PH)

Así que por favor envíe cualquier idea.