разобрать фрагмент тела html в lxml
Я пытаюсь разобрать фрагмент HTML:
<body><h1>title</h1><img src=""></body>
я используюlxml.html.fromstring
, И это сводит меня с ума, потому что он продолжает раздеваться<body>
тег моих фрагментов:
> lxml.html.fromstring('<html><h1>a</h1></html>').tag
'html'
> lxml.html.fromstring('<div><h1>a</h1></div>').tag
'div'
> lxml.html.fromstring('<body><h1>a</h1></body>').tag
'h1'
Я также попробовалdocument_fromstring
, fragment_fromstring
, clean_html
с участиемpage_structure=False
и т.д ... ничего не работает.
Мне нужно использовать lxml, так как я передаю фрагмент html в PyQuery.
Я просто хочу, чтобы lxml не связывался с моим HTML-фрагментом. Возможно ли это сделать?