Cree un gran analizador: extraiga el texto relevante de HTML / Blogs

Question

Jul 18, 2009, 09:27 AM

parsing text-parsing html-content-extraction html

Cree un gran analizador: extraiga el texto relevante de HTML / Blogs

Estoy intentando crear un analizador HTML generalizado que funciona bien en las publicaciones de blog. Quiero apuntar mi analizador a la URL de la entrada específica y recuperar el texto limpio de la publicación. Mi enfoque básico (de python) ha sido utilizar una combinación de BeautifulSoup / Urllib2, que está bien, pero se supone que conoce las etiquetas adecuadas para la entrada del blog. Alguien tiene mejores ideas?

Aquí hay algunos pensamientos que tal vez alguien podría ampliar, que todavía no tengo suficiente conocimiento / conocimiento para implementar.

El programa 'lynx' de Unix parece analizar las publicaciones del blog especialmente bien: ¿qué analizador utilizan, o cómo podría utilizarse?

¿Hay algún servicio / analizador que elimine automáticamente los anuncios basura, etc.?

En este caso, tuve la vaga idea de que puede ser una buena suposición de que las publicaciones de blog generalmente están contenidas en una etiqueta de definición determinada con class = "entry" o algo similar. Por lo tanto, puede ser posible crear un algoritmo que encuentre las etiquetas adjuntas con el texto más limpio entre ellas. ¿Alguna idea sobre esto?

¡Gracias!