Cómo extraer frases comunes / significativas de una serie de entradas de texto

Question

Mar 16, 2010, 09:42 AM

Cómo extraer frases comunes / significativas de una serie de entradas de texto

Tengo una serie de elementos de texto: HTML sin formato de una base de datos MySQL. Quiero encontrar las frases más comunes en estas entradas (no la frase más común e, idealmente, no imponer la coincidencia palabra por palabra).

Mi ejemplo es cualquier reseña en Yelp.com, que muestra 3 fragmentos de cientos de reseñas de un restaurante determinado, en el formato:

"Prueba la hamburguesa" (en 44 comentarios)

por ejemplo, la sección "Revisar aspectos destacados" de esta página:

http://www.yelp.com/biz/sushi-gen-los-angeles/

Tengo instalado NLTK y he jugado un poco con él, pero sinceramente estoy abrumado por las opciones. Esto parece un problema bastante común y no he podido encontrar una solución sencilla buscando aquí.