Dos textos completos de similitud usando levenshtein distancia [cerrado]

Question

Mar 25, 2013, 11:17 AM

statistics algorithm levenshtein-distance

Dos textos completos de similitud usando levenshtein distancia [cerrado]

Tengo dos archivos de texto que me gustaría comparar. Lo que hice es:

He dividido ambos en oraciones.He medido la distancia de levenshtein entre cada una de las oraciones de un archivo con cada una de las oraciones del segundo archivo.

Me gustaría calcular la similitud promedio entre esos dos archivos de texto, sin embargo, tengo problemas para entregar cualquier valor significativo; obviamente, la media aritmética (la suma de todas las distancias [normalizadas] dividida por el número de comparaciones) es una mala idea.

¿Cómo interpretar tales resultados?

Editar: Los valores de distancia están normalizados.