de.dariah.eu/tatom/getting_started.html
ел бы найти наиболее подходящие слова в наборе документов.
Я хотел бы вызвать алгоритм Tf Idf для 3 документов и вернуть CSV-файл, содержащий каждое слово и его частоту.
После этого я возьму только те, которые имеют большое количество, и буду ими пользоваться
Я нашел эту реализацию, которая делает то, что мне нужноhttps://github.com/mccurdyc/tf-idf/.
Я называю эту банку, используяsubprocess
библиотека. Но в этом коде есть огромная проблема: он допускает много ошибок при анализе слов. Он смешивает некоторые слова, у него проблемы с'
а также-
(Думаю). Я использую его над текстом из 3 книг (Гарри Поттер) и, например, я получаю такие словаhermiones, hermionell, riddlehermione, thinghermione
вместо простоhermione
в файле CSV.
Я что-то не так делаю? Можете ли вы дать мне рабочую реализацию алгоритма Tf IDF? Есть ли библиотека Python, которая делает это?