Как извлечь общие / значимые фразы из серии текстовых записей

У меня есть серия текстовых элементов - сырой HTML из базы данных MySQL. Я хочу найти наиболее распространенные фразы в этих записях (не единственную наиболее распространенную фразу, и в идеале, не приводя в соответствие слово в слово).

Мой пример - любой обзор на Yelp.com, который показывает 3 фрагмента из сотен отзывов о том или ином ресторане в формате:

«Попробуйте гамбургер» (в 44 отзывах)

например, раздел «Обзор основных моментов» на этой странице:

http://www.yelp.com/biz/sushi-gen-los-angeles/

У меня установлен NLTK, и я немного поигрался с ним, но, честно говоря, перегружен опциями. Это кажется довольно распространенной проблемой, и я не смог найти прямого решения, выполнив поиск здесь.

Ответы на вопрос(4)

Ваш ответ на вопрос