parsuj fragment treści HTML w lxml

Question

May 11, 2013, 05:35 PM

parsuj fragment treści HTML w lxml

Próbuję przeanalizować fragment html:

<body><h1>title</h1><img src=""></body>

używamlxml.html.fromstring. I doprowadza mnie to do szaleństwa, ponieważ wciąż obdziera<body> tag moich fragmentów:

 > lxml.html.fromstring('<html><h1>a</h1></html>').tag
 'html'
 > lxml.html.fromstring('<div><h1>a</h1></div>').tag
 'div'
 > lxml.html.fromstring('<body><h1>a</h1></body>').tag
 'h1'

Próbowałem takżedocument_fromstring, fragment_fromstring, clean_html zpage_structure=False, itd ... nic nie działa.

Muszę użyć lxml, ponieważ przekazuję fragment html do PyQuery.

Chcę tylko, żeby lxml nie bał się moim fragmentem HTML. czy jest to możliwe do zrobienia?

questionAnswers(1)

Popularne pytania

0 odpowiedzi

Wyrzucanie wyjątków w Scali, jaka jest „oficjalna reguła”

0 odpowiedzi

Delphi - Ukryj okno konsoli [duplikat]

0 odpowiedzi

Odtwarzanie powtarzanego AudioTrack w aktywności Androida

0 odpowiedzi

Java: różnica między A x = new A () i A x = new B (), gdy B rozszerza A [duplikat]

0 odpowiedzi

Znajdź maksymalną wartość w Javie z wejścia pliku

Jesteś bardzo aktywny! To świetnie!

parsuj fragment treści HTML w lxml

questionAnswers(1)

yourAnswerToTheQuestion

Popularne pytania