analizar el fragmento del cuerpo html en lxml
Estoy tratando de analizar un fragmento de HTML:
<body><h1>title</h1><img src=""></body>
yo suelolxml.html.fromstring
. Y me está volviendo loco porque sigue despojando al<body>
etiqueta de mis fragmentos:
> lxml.html.fromstring('<html><h1>a</h1></html>').tag
'html'
> lxml.html.fromstring('<div><h1>a</h1></div>').tag
'div'
> lxml.html.fromstring('<body><h1>a</h1></body>').tag
'h1'
También he probado eldocument_fromstring
, fragment_fromstring
, clean_html
conpage_structure=False
, etc ... nada funciona.
Necesito usar lxml, ya que estoy pasando el fragmento html a PyQuery.
Solo quiero que lxml no se meta con mi fragmento html. ¿Es posible hacer eso?