¿Qué algoritmos podría usar para identificar contenido en una página web?

Question

Jan 04, 2010, 01:22 PM

algorithm webpage html-content-extraction

¿Qué algoritmos podría usar para identificar contenido en una página web?

Tengo una página web cargada en el navegador (es decir, su DOM y mi posicionamiento de elementos son accesibles para mí) y quiero encontrar el elemento de bloque (o una lista ordenada de estos elementos), que probablemente contenga la mayor cantidad de contenido (como en un bloque continuo de texto). El objetivo es excluir cosas como menús, encabezados, pies de página y demás.