Algoritmo Python Tf idf
Gostaria de encontrar as palavras mais relevantes em um conjunto de documentos.
Gostaria de chamar um algoritmo Tf Idf com mais de 3 documentos e retornar um arquivo csv contendo cada palavra e sua frequência.
Depois disso, pegarei apenas os que tiverem um número alto e os usarei.
Encontrei esta implementação que faz o que eu precisohttps://github.com/mccurdyc/tf-idf/.
Eu chamo esse frasco usando osubprocess
biblioteca. Mas há um enorme problema nesse código: ele comete muitos erros na análise de palavras. Mistura algumas palavras, tem problemas com'
e-
(Eu acho que). Estou usando-o sobre o texto de 3 livros (Harry Potter) e, por exemplo, estou obtendo palavras comohermiones, hermionell, riddlehermione, thinghermione
em vez de apenashermione
no arquivo csv.
Estou fazendo algo errado? Você pode me dar uma implementação funcional do algoritmo Tf idf? Existe uma biblioteca python que faz isso?