Algoritmo Python Tf idf

Question

Mar 14, 2018, 01:34 PM

Algoritmo Python Tf idf

Gostaria de encontrar as palavras mais relevantes em um conjunto de documentos.

Gostaria de chamar um algoritmo Tf Idf com mais de 3 documentos e retornar um arquivo csv contendo cada palavra e sua frequência.

Depois disso, pegarei apenas os que tiverem um número alto e os usarei.

Encontrei esta implementação que faz o que eu precisohttps://github.com/mccurdyc/tf-idf/.

Eu chamo esse frasco usando osubprocess biblioteca. Mas há um enorme problema nesse código: ele comete muitos erros na análise de palavras. Mistura algumas palavras, tem problemas com' e- (Eu acho que). Estou usando-o sobre o texto de 3 livros (Harry Potter) e, por exemplo, estou obtendo palavras comohermiones, hermionell, riddlehermione, thinghermione em vez de apenashermione no arquivo csv.

Estou fazendo algo errado? Você pode me dar uma implementação funcional do algoritmo Tf idf? Existe uma biblioteca python que faz isso?