Parsen Sie das HTML-Body-Fragment in lxml

Question

May 11, 2013, 05:35 PM

Parsen Sie das HTML-Body-Fragment in lxml

Ich versuche, ein Fragment von HTML zu analysieren:

<body><h1>title</h1><img src=""></body>

ich benutzelxml.html.fromstring. Und es macht mich wahnsinnig, weil es mich ständig auszieht<body> tag meiner fragmente:

 > lxml.html.fromstring('<html><h1>a</h1></html>').tag
 'html'
 > lxml.html.fromstring('<div><h1>a</h1></div>').tag
 'div'
 > lxml.html.fromstring('<body><h1>a</h1></body>').tag
 'h1'

Ich habe das auch probiertdocument_fromstring, fragment_fromstring, clean_html mitpage_structure=False, etc ... nichts funktioniert.

Ich muss lxml verwenden, da ich das HTML-Fragment an PyQuery übergebe.

Ich möchte nur, dass lxml nicht mit meinem HTML-Fragment in Konflikt gerät. Ist das möglich?

Antworten auf die Frage(1)

Top Fragen

0 die antwort

Android: Holen Sie sich Atomic Time

0 die antwort

CanCan load_and_authorize_resource löst verbotene Attribute aus

0 die antwort

Wie erstelle ich eine Sparse-Datei programmgesteuert in C unter Mac OS X?

0 die antwort

Über alle Eigenschaften einer Schnittstelle nachdenken, auch über geerbte?

0 die antwort

Gibt es eine Java-Entsprechung oder -Methode für das Schlüsselwort typedef in C ++?

Du bist sehr aktiv! Es ist großartig!

Parsen Sie das HTML-Body-Fragment in lxml

Antworten auf die Frage(1)

Ihre Antwort auf die Frage

Top Fragen