Как извлечь общие / значимые фразы из серии текстовых записей
У меня есть серия текстовых элементов - сырой HTML из базы данных MySQL. Я хочу найти наиболее распространенные фразы в этих записях (не единственную наиболее распространенную фразу, и в идеале, не приводя в соответствие слово в слово).
Мой пример - любой обзор на Yelp.com, который показывает 3 фрагмента из сотен отзывов о том или ином ресторане в формате:
«Попробуйте гамбургер» (в 44 отзывах)
например, раздел «Обзор основных моментов» на этой странице:
http://www.yelp.com/biz/sushi-gen-los-angeles/
У меня установлен NLTK, и я немного поигрался с ним, но, честно говоря, перегружен опциями. Это кажется довольно распространенной проблемой, и я не смог найти прямого решения, выполнив поиск здесь.