Algoritmo idf de Python Tf
Me gustaría encontrar las palabras más relevantes en un conjunto de documentos.
Me gustaría llamar a un algoritmo Tf Idf sobre 3 documentos y devolver un archivo csv que contenga cada palabra y su frecuencia.
Después de eso, tomaré solo los que tengan un número alto y los usaré.
Encontré esta implementación que hace lo que necesitohttps://github.com/mccurdyc/tf-idf/.
Yo llamo a ese frasco usando elsubprocess
biblioteca. Pero hay un gran problema en ese código: comete muchos errores al analizar palabras. Mezcla algunas palabras, tiene problemas con'
y-
(Yo creo que). Lo estoy usando sobre el texto de 3 libros (Harry Potter) y, por ejemplo, estoy obteniendo palabras comohermiones, hermionell, riddlehermione, thinghermione
en lugar de solohermione
en el archivo csv.
¿Estoy haciendo algo mal? ¿Me puede dar una implementación funcional del algoritmo idf Tf? ¿Hay una biblioteca de Python que hace eso?