Результаты поиска по запросу "beautifulsoup"

5 ответов

Не помещайте теги html, head и body автоматически, Beautifulsoup

используя beautifulsoup с html5lib, он автоматически размещает теги html, head и body: BeautifulSoup('<h1>FOO</h1>', 'html5lib') # => <html><head></head><body><h1>FOO</h1></body></html>есть ли опция, которую я могу установить, отключить это ...

1 ответ

Как заставить BeautifulSoup 4 уважать самозакрывающийся тег?

Этот вопрос относится кBeautifulSoup4 [http://www.crummy.com/software/BeautifulSoup/bs4/doc/], что отличает его от предыдущих вопросов: Почему BeautifulSoup модифицирует мои самозакрывающиеся ...

1 ответ

Python - найти текст с помощью BeautifulSoup, а затем заменить в исходной переменной супа

commentary = soup.find('div', {'id' : 'live-text-commentary-wrapper'}) findtoure = commentary.find(text = re.compile('Gnegneri Toure Yaya')).replace('Gnegneri Toure Yaya', 'Yaya Toure')Комментарий содержит различные примеры Gnegneri Toure Yaya, ...

ТОП публикаций

3 ответа

Как я могу заменить или удалить объекты HTML, такие как & nbsp;, используя BeautifulSoup 4

Я обрабатываю HTML, используя Python и библиотеку BeautifulSoup 4, и не могу найти очевидный способ заменить&nbsp; с пробелом. Вместо этого он, кажется, преобразуется в неразрывный пробел Unicode. Я что-то упускаю из виду? Каков наилучший способ ...

1 ответ

Как разобрать HTML-таблицу с Python и BeautifulSoup и написать в CSV

Я пытаюсь разобрать HTML-страницу и получить значения для валют и записи в CSV. У меня есть следующий код: #!/usr/bin/env python import urllib2 from BeautifulSoup import BeautifulSoup contenturl ...

0 ответов

BeautifulSoup не читает плохо сформированный HTML

Я изучал BeautifulSoup. Он не читал некоторые сайты должным образом. Я обнаружил, что причина в том, что некоторые атрибуты HTML были плохо сформированы. Например: from bs4 import BeautifulSoup html = """ <html> ...

2 ответа

HTML кодирование и разбор lxml

Я пытаюсь, наконец, решить некоторые проблемы с кодированием, которые возникают при попытке очистить HTML с помощью lxml. Вот три примера HTML-документов, с которыми я столкнулся: 1. <!DOCTYPE html> <html lang='en'> <head> <title>Unicode Chars: ...

3 ответа

Python конвертировать HTML в текст и имитировать форматирование

Я изучаю BeautifulSoup и нашел много решений "html2text", но то, которое я ищу, должно имитировать форматирование: <ul> <li>One</li> <li>Two</li> </ul>Станет * One * Twoа также Some text <blockquote> More magnificent text here </blockquote> ...

2 ответа

Разбор HTML с Beautiful Soup возвращает пустой список

Теперь у меня есть идея, почему этот кусок кода не работает с этим конкретным сайтом. В других случаях это работает нормально. url = "http://www.i-apteka.pl/search.php?node=443&counter=all" content = requests.get(url).text soup = ...

2 ответа

Как запретить BeautifulSoup4 добавлять дополнительные теги <html> <body> в суп? [Дубликат]

На этот вопрос уже есть ответ: Не добавляйте теги html, head и body автоматически, Beautifulsoup [/questions/14822188/dont-put-html-head-and-body-tags-automatically-beautifulsoup] 5 ответов В версиях BeautifulSoup до 3 я мог взять любой кусок ...