Einfache Implementierung von N-Gram, tf-idf und Cosine Ähnlichkeit in Python

Ich muss Dokumente vergleichen, die in einer Datenbank gespeichert sind, und eine Ähnlichkeitsbewertung zwischen 0 und 1 finden.

Die Methode, die ich verwenden muss, muss sehr einfach sein. Implementierung einer Vanilla-Version von n-Gramm (wobei definiert werden kann, wie viele Gramm verwendet werden sollen), zusammen mit einer einfachen Implementierung von tf-idf und Cosine-Ähnlichkeit.

Gibt es ein Programm, das das kann? Oder sollte ich anfangen, dies von Grund auf neu zu schreiben?

Antworten auf die Frage(5)

Ihre Antwort auf die Frage