сходство двух целых текстов с использованием расстояния Левенштейна [закрыто]

У меня есть два текстовых файла, которые я хотел бы сравнить. Что я сделал, это:

Я разделил их обоих на предложения.Я измерил расстояние Левенштейна между каждым из предложений из одного файла с каждым из предложений из второго файла.

Я хотел бы посчитать среднее сходство между этими двумя текстовыми файлами, однако у меня возникли проблемы с получением какого-либо значимого значения - очевидно, среднее арифметическое (сумма всех [нормализованных] расстояний, деленная на количество сравнений) - плохая идея.

Как интерпретировать такие результаты?

редактировать: значения расстояния нормализуются.

Ответы на вопрос(1)

Ваш ответ на вопрос