parsuj fragment treści HTML w lxml
Próbuję przeanalizować fragment html:
<body><h1>title</h1><img src=""></body>
używamlxml.html.fromstring
. I doprowadza mnie to do szaleństwa, ponieważ wciąż obdziera<body>
tag moich fragmentów:
> lxml.html.fromstring('<html><h1>a</h1></html>').tag
'html'
> lxml.html.fromstring('<div><h1>a</h1></div>').tag
'div'
> lxml.html.fromstring('<body><h1>a</h1></body>').tag
'h1'
Próbowałem takżedocument_fromstring
, fragment_fromstring
, clean_html
zpage_structure=False
, itd ... nic nie działa.
Muszę użyć lxml, ponieważ przekazuję fragment html do PyQuery.
Chcę tylko, żeby lxml nie bał się moim fragmentem HTML. czy jest to możliwe do zrobienia?