Python: Semantische Ähnlichkeitsbewertung für Strings [duplizieren]

Question

Jun 10, 2013, 01:20 PM

Python: Semantische Ähnlichkeitsbewertung für Strings [duplizieren]

Diese Frage hat hier bereits eine Antwort:

Wie berechnet man die Ähnlichkeit zwischen zwei Textdokumenten? 7 Antworten

Gibt es Bibliotheken für die Berechnung semantischer Ähnlichkeitswerte für ein Satzpaar?

Ich kenne die semantische Datenbank von WordNet und weiß, wie ich die Punktzahl für zwei Wörter generieren kann, suche jedoch Bibliotheken, die alle Vorverarbeitungsaufgaben wie Port-Stemming, Stoppen der Wortentfernung usw. für ganze Sätze und Ausgaben ausführen eine Punktzahl für die Verwandtschaft der beiden Sätze.

Ich habe einen ... gefundenArbeit in Bearbeitung, die mit dem .NET-Framework erstellt wurde, das die Bewertung mithilfe einer Reihe von Vorverarbeitungsschritten berechnet. Gibt es ein Projekt, das dies in Python erledigt?

Ich suche nicht nach der Abfolge von Operationen, die mir helfen würden, die Partitur zu finden (wie gewünscht)Hier)
Ich würde gerne jede Stufe einzeln implementieren oder Funktionen aus verschiedenen Bibliotheken zusammenfügen, damit sie für Satzpaare funktionieren, aber ich brauche dies hauptsächlich als Werkzeug, um Rückschlüsse auf Daten zu testen.

BEARBEITEN: Ich überlegte, NLTK zu verwenden und die Punktzahl für jedes Wortpaar zu berechnen, das über die beiden Sätze iteriert wurde, und dann Rückschlüsse auf die Standardabweichung der Ergebnisse zu ziehen, aber ich weiß nicht, ob dies eine legitime Schätzung der Ähnlichkeit ist. Außerdem wird das eine Menge Zeit für lange Saiten in Anspruch nehmen.
Ich bin wieder auf der Suche nach Projekten / Bibliotheken, die dies bereits intelligent umsetzen. Etwas, mit dem ich das machen kann:

import amazing_semsim_package
str1='Birthday party ruined as cake explodes'
str2='Grandma mistakenly bakes cake using gunpowder'

>>similarity(str1,str2)
>>0.889