Расчет tf-idf среди документов с использованием python 2.7

У меня есть сценарий, где я получил информацию / необработанные данные из Интернета и поместил их в соответствующие файлы JSON или TXT.

После этого я хотел бы вычислить частоты каждого термина в каждом документе и их косинусное сходство, используя tf-idf.

Например: существует 50 различных файлов документов / текстов, каждый из которых состоит из 5000 слов / строк. Я хотел бы взять первое слово из первого документа / текста и сравнить все 250000 слов, найти его частоты, затем сделать это для второго слова и так для всех 50 документов / текстов.

Ожидаемый выход каждой частоты будет от 0 -1

Как я могу это сделать? Я имел в виду пакет sklear, но большинство из них состоит только из нескольких строк в каждом сравнении.

Ответы на вопрос(1)

Ваш ответ на вопрос