Python: Семантическая оценка сходства для строк [дубликат]
На этот вопрос уже есть ответ здесь:
Как вычислить сходство между двумя текстовыми документами? 7 ответовСуществуют ли какие-либо библиотеки для вычисления значений семантического сходства для пары предложений?
я знаю о WordNetс семантической базой данных, и как я могу создать счет для 2 слов, но яЯ ищу библиотеки, которые выполняют все задачи предварительной обработки, такие как перенос по портам, удаление стоп-слов и т. д., для целых предложений и выводят оценку их взаимосвязи.
Я нашелРабота в прогрессе, что 'написаны с использованием .NET Framework, который вычисляет оценку, используя массив этапов предварительной обработки. Есть ли какой-нибудь проект, который делает это в Python?
я не ищу последовательность операций, которая помогла бы мне найти счет (как просятздесь я'
Я бы хотел реализовать каждый этап самостоятельно или склеить функции из разных библиотек, чтобы они работали для пар предложений, но мне это нужно в основном как инструмент для проверки выводов данных.
РЕДАКТИРОВАТЬ: Я рассматривал вопрос об использовании NLTK и вычислении баллов для каждой пары слов, повторяемых в двух предложениях, а затем делал выводы из стандартного отклонения результатов, но я нене знаю, если этозаконная оценка сходства. Плюс этозаймет много времени для длинных струн.
Опять яЯ ищу проекты / библиотеки, которые уже реализуют это разумно. Что-то, что позволяет мне сделать это:
import amazing_semsim_package
str1='Birthday party ruined as cake explodes'
str2='Grandma mistakenly bakes cake using gunpowder'
>>similarity(str1,str2)
>>0.889