Implementação simples de similaridade N-Gram, tf-idf e Cosine em Python
Preciso comparar os documentos armazenados em um banco de dados e obter uma pontuação de similaridade entre 0 e 1.
O método que preciso usar tem que ser muito simples. Implementando uma versão baunilha de n-gramas (onde é possível definir quantos gramas usar), juntamente com uma implementação simples da semelhança tf-idf e Cosine.
Existe algum programa que possa fazer isso? Ou devo começar a escrever isso do zero?