Parsen Sie das HTML-Body-Fragment in lxml
Ich versuche, ein Fragment von HTML zu analysieren:
<body><h1>title</h1><img src=""></body>
ich benutzelxml.html.fromstring
. Und es macht mich wahnsinnig, weil es mich ständig auszieht<body>
tag meiner fragmente:
> lxml.html.fromstring('<html><h1>a</h1></html>').tag
'html'
> lxml.html.fromstring('<div><h1>a</h1></div>').tag
'div'
> lxml.html.fromstring('<body><h1>a</h1></body>').tag
'h1'
Ich habe das auch probiertdocument_fromstring
, fragment_fromstring
, clean_html
mitpage_structure=False
, etc ... nichts funktioniert.
Ich muss lxml verwenden, da ich das HTML-Fragment an PyQuery übergebe.
Ich möchte nur, dass lxml nicht mit meinem HTML-Fragment in Konflikt gerät. Ist das möglich?