So extrahieren Sie häufige / signifikante Ausdrücke aus einer Reihe von Texteingaben

Ich habe eine Reihe von Textelementen - rohes HTML aus einer MySQL-Datenbank. Ich möchte die häufigsten Ausdrücke in diesen Einträgen finden (nicht die häufigste Einzelphrase und im Idealfall keine Wort-für-Wort-Übereinstimmung erzwingen).

Mein Beispiel ist eine Bewertung auf Yelp.com, die 3 Ausschnitte aus Hunderten von Bewertungen eines bestimmten Restaurants im Format zeigt:

"Probieren Sie den Hamburger" (in 44 Bewertungen)

B. der Abschnitt "Highlights überprüfen" auf dieser Seite:

http://www.yelp.com/biz/sushi-gen-los-angeles/

Ich habe NLTK installiert und habe ein bisschen damit gespielt, bin aber ehrlich gesagt von den Optionen überwältigt. Dies scheint ein weit verbreitetes Problem zu sein, und ich konnte hier keine eindeutige Lösung finden.

Antworten auf die Frage(4)

Ihre Antwort auf die Frage