Jak zapobiec dodawaniu do zupy dodatkowych tagów <html> <body> przez BeautifulSoup4? [duplikować

Question

Apr 12, 2013, 11:01 PM

Jak zapobiec dodawaniu do zupy dodatkowych tagów <html> <body> przez BeautifulSoup4? [duplikować

To pytanie ma już odpowiedź tutaj:

Nie umieszczaj automatycznie tagów html, head i body, beautifulsoup 5 odpowiedzi

W wersjach BeautifulSoup wcześniejszych niż 3 mogłem pobrać dowolny fragment HTML i uzyskać ciąg znaków w następujący sposób:

from BeautifulSoup import BeautifulSoup
soup3 = BeautifulSoup('<div><b>soup 3</b></div>')
print unicode(soup3)
    '<div><b>soup</b></div>'

Jednak w przypadku BeautifulSoup4 ta sama operacja tworzy dodatkowe tagi:

from bs4 import BeautifulSoup
soup4 = BeautifulSoup('<div><b>soup 4</b></div>')
print unicode(soup4)
    '<html><body><div><b>soup 4</b></div></body></html>'
     ^^^^^^^^^^^^                        ^^^^^^^^^^^^^^

Nie potrzebuję zewnętrznego<html><body>..</body></html>agi @, które dodaje BS4. Przejrzałem dokumenty BS4 i przeszukałem wewnątrz klasy, ale nie mogłem znaleźć żadnego ustawienia dla tłumienia dodatkowych znaczników w danych wyjściowych. Jak mam to zrobić? Zmiana na wersję v3 nie jest opcją, ponieważ parser SGML użyty w BS3 nie jest tak dobry jaklxml lubhtml5lib parsery, które są dostępne z BS4.

questionAnswers(2)

Popularne pytania

0 odpowiedzi

git mówi mi, że łączę konflikt, ale mówi mi również, że żadne pliki nie wymagają scalenia

0 odpowiedzi

Zachowaj krotki Pythona za pomocą JSON

0 odpowiedzi

Jak stworzyć matrycę projektową w r

0 odpowiedzi

Niezależna od architektury architektura P / Invoke: czy nazwa DllName lub ścieżka mogą być „dynamiczne”?

0 odpowiedzi

Dostęp do urządzenia z systemem iOS przez USB na mac

Jesteś bardzo aktywny! To świetnie!

Jak zapobiec dodawaniu do zupy dodatkowych tagów &lt;html&gt; &lt;body&gt; przez BeautifulSoup4? [duplikować

questionAnswers(2)

yourAnswerToTheQuestion

Popularne pytania

Jak zapobiec dodawaniu do zupy dodatkowych tagów <html> <body> przez BeautifulSoup4? [duplikować