сходство двух целых текстов с использованием расстояния Левенштейна [закрыто]
У меня есть два текстовых файла, которые я хотел бы сравнить. Что я сделал, это:
Я разделил их обоих на предложения.Я измерил расстояние Левенштейна между каждым из предложений из одного файла с каждым из предложений из второго файла.Я хотел бы посчитать среднее сходство между этими двумя текстовыми файлами, однако у меня возникли проблемы с получением какого-либо значимого значения - очевидно, среднее арифметическое (сумма всех [нормализованных] расстояний, деленная на количество сравнений) - плохая идея.
Как интерпретировать такие результаты?
редактировать: значения расстояния нормализуются.