Código fuente analizando (Python) Enfoque: ¿Sopa hermosa, lxml, diferencia html5lib?

Question

Jun 08, 2012, 05:28 AM

Código fuente analizando (Python) Enfoque: ¿Sopa hermosa, lxml, diferencia html5lib?

Tengo un código fuente HTML grande que me gustaría analizar (~ 200,000) líneas, y estoy bastante seguro de que hay algún formato pobre en todo. He estado investigando algunos analizadores, y parece que Beautiful Soup, lxml, html5lib son los más populares. Al leer este sitio web, parece que lxml es el más usado y el más rápido, mientras que Beautiful Soup es más lento pero tiene más errores y variaciones.

Estoy un poco confundido con la documentación de Beautiful Soup,http://www.crummy.com/software/BeautifulSoup/bs4/doc/, y comandos como BeautifulSoup (markup, "lxml") o BeautifulSoup (markup, html5lib). En tales casos, ¿está utilizando tanto Beautiful Soup como html5lib / lxml? La velocidad no es realmente un problema aquí, pero la precisión lo es. El objetivo final es analizar el código fuente utilizando urllib2 y recuperar todos los datos de texto del archivo como si solo tuviera que copiar / pegar la página web.

PD ¿Hay algún modo de analizar el archivo sin devolver ningún espacio en blanco que no estuviera presente en la vista de la página web?

Respuestas a la pregunta(1)

Preguntas populares

0 la respuesta

La animación del Guión gráfico de WPF se repite para siempre incluso con RepeatBehavior = "6"

0 la respuesta

¿Cuál es la diferencia entre 'contenido' y 'texto'?

0 la respuesta

Oracle todas las referencias de clave externa

0 la respuesta

Mapeo dinámico para destinos en grunt.js

0 la respuesta

El depurador PhpStorm no se detiene en BreakPoints; sigue esperando xdebug _SESSION_

¡Eres muy activo! ¡Es genial!

Código fuente analizando (Python) Enfoque: ¿Sopa hermosa, lxml, diferencia html5lib?

Respuestas a la pregunta(1)

Su respuesta a la pregunta

Preguntas populares