Parsen Sie das HTML-Body-Fragment in lxml

Question

May 11, 2013, 05:35 PM

Parsen Sie das HTML-Body-Fragment in lxml

Ich versuche, ein Fragment von HTML zu analysieren:

<body><h1>title</h1><img src=""></body>

ich benutzelxml.html.fromstring. Und es macht mich wahnsinnig, weil es mich ständig auszieht<body> tag meiner fragmente:

 > lxml.html.fromstring('<html><h1>a</h1></html>').tag
 'html'
 > lxml.html.fromstring('<div><h1>a</h1></div>').tag
 'div'
 > lxml.html.fromstring('<body><h1>a</h1></body>').tag
 'h1'

Ich habe das auch probiertdocument_fromstring, fragment_fromstring, clean_html mitpage_structure=False, etc ... nichts funktioniert.

Ich muss lxml verwenden, da ich das HTML-Fragment an PyQuery übergebe.

Ich möchte nur, dass lxml nicht mit meinem HTML-Fragment in Konflikt gerät. Ist das möglich?

Antworten auf die Frage(1)

Top Fragen

0 die antwort

Win32Exception wurde nicht behandelt - Visual Basic beim Klicken auf die Schaltfläche "Beenden"

0 die antwort

Der Vorgang konnte aufgrund des Fehlers 80020101 nicht abgeschlossen werden. IE [duplicate]

0 die antwort

Ändern Sie die Hintergrundfarbe des deaktivierten Listenfelds im klassischen Windows-Design

0 die antwort

JavaScript-Druckvorschau

0 die antwort

Wie greife ich vom Adapter auf ListView zu?

Du bist sehr aktiv! Es ist großartig!

Parsen Sie das HTML-Body-Fragment in lxml

Antworten auf die Frage(1)

Ihre Antwort auf die Frage

Top Fragen