analizar el fragmento del cuerpo html en lxml

Question

May 11, 2013, 05:35 PM

analizar el fragmento del cuerpo html en lxml

Estoy tratando de analizar un fragmento de HTML:

<body><h1>title</h1><img src=""></body>

yo suelolxml.html.fromstring. Y me está volviendo loco porque sigue despojando al<body> etiqueta de mis fragmentos:

 > lxml.html.fromstring('<html><h1>a</h1></html>').tag
 'html'
 > lxml.html.fromstring('<div><h1>a</h1></div>').tag
 'div'
 > lxml.html.fromstring('<body><h1>a</h1></body>').tag
 'h1'

También he probado eldocument_fromstring, fragment_fromstring, clean_html conpage_structure=False, etc ... nada funciona.

Necesito usar lxml, ya que estoy pasando el fragmento html a PyQuery.

Solo quiero que lxml no se meta con mi fragmento html. ¿Es posible hacer eso?

Respuestas a la pregunta(1)

Preguntas populares

0 la respuesta

Desarrollo iOS: ¿Cómo puedo acortar una URL de mi código?

0 la respuesta

Objetivo C: guardar UIImage como un archivo BMP

0 la respuesta

La API IFrame de YouTube genera una advertencia de contenido mixto con HTTPS + HTML5

0 la respuesta

alinear verticalmente el texto en un CATextLayer?

0 la respuesta

MySQL selecciona filas que no tienen una columna coincidente en otra tabla

¡Eres muy activo! ¡Es genial!

analizar el fragmento del cuerpo html en lxml

Respuestas a la pregunta(1)

Su respuesta a la pregunta

Preguntas populares