de.dariah.eu/tatom/getting_started.html

ел бы найти наиболее подходящие слова в наборе документов.

Я хотел бы вызвать алгоритм Tf Idf для 3 документов и вернуть CSV-файл, содержащий каждое слово и его частоту.

После этого я возьму только те, которые имеют большое количество, и буду ими пользоваться

Я нашел эту реализацию, которая делает то, что мне нужноhttps://github.com/mccurdyc/tf-idf/.

Я называю эту банку, используяsubprocess библиотека. Но в этом коде есть огромная проблема: он допускает много ошибок при анализе слов. Он смешивает некоторые слова, у него проблемы с' а также- (Думаю). Я использую его над текстом из 3 книг (Гарри Поттер) и, например, я получаю такие словаhermiones, hermionell, riddlehermione, thinghermione вместо простоhermione в файле CSV.

Я что-то не так делаю? Можете ли вы дать мне рабочую реализацию алгоритма Tf IDF? Есть ли библиотека Python, которая делает это?

Ответы на вопрос(1)

Ваш ответ на вопрос