Результаты поиска по запросу "html-parsing"

4 ответа

UnicodeEncodeError с BeautifulSoup 3.1.0.1 и Python 2.5.2

то я сделал .. >>> soup = BeautifulSoup (html) >>> soup Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeEncodeError: 'ascii' codec can't encode character u'\xae' in position 96953: ordinal not in range(128) >>> ...

3 ответа

Пожалуйста, не полагайтесь на строковое представление объектов для логики вашего кода.

я есть следующий HTML-код, который находится в большем документе <br /> Important Text 1 <br /> <br /> Not Important Text <br /> Important Text 2 <br /> Important Text 3 <br /> <br /> Non Important Text <br /> Important Text 4 <br />В настоящее ...

1 ответ

stackoverflow.com/questions/53081241/...

ько начинаю в скрипте Google Apps. Поскольку лучшие практики кодирования рекомендуют использовать как можно меньше формул листа, я пытаюсь выполнить очистку веб-страниц с помощью GAS Parser, а затем перенести данные в мою электронную таблицу. На ...

ТОП публикаций

1 ответ

 из

аюсь очистить таблицу данных о ценах из этогоВеб-сайт [https://stooq.com/q/d/?s=barc.uk&i=d]используя следующий код; function scrapeData() { // Retrieve table as a string using Parser. var url = "https://stooq.com/q/d/?s=barc.uk&i=d"; var ...

1 ответ

Я думаю, что это удалит все содержимое тега h2. Я просто хочу заменить имя тега и оставить все остальное без изменений.

ользую python + BeautifulSoup для разбора HTML-документа. Теперь мне нужно заменить все<h2 class="someclass"> элементы в документе HTML, с<h1 class="someclass">. Как я могу изменить имя тега, не меняя ничего в документе?

7 ответов

Разбор HTML в python - lxml или BeautifulSoup? Какой из них лучше для каких целей?

Из того, что я могу разглядеть, две основные библиотеки парсинга HTML в Python - это lxml и BeautifulSoup. Я выбрал BeautifulSoup для проекта, над которым я работаю, но я выбрал его не по какой-то конкретной причине, кроме как найти синтаксис ...

1 ответ

Python BeautifulSoup скрести таблицы

Я пытаюсь создать скребок таблицы с BeautifulSoup. Я написал этот код Python: import urllib2 from bs4 import BeautifulSoup url = "http://dofollow.netsons.org/table1.htm" # change to whatever your url is page = urllib2.urlopen(url).read() soup = ...

3 ответа

Хорошо, спасибо всем. Я не заметил 301, но теперь я исправил

аюсь прочитать HTML-код из URL-соединения. В одном случае html-файл, который я пытаюсь прочитать, содержит 5 разрывов строк перед фактическим объявлением типа документа. В этом случае читатель ввода выдает исключение для EOF. URL pageUrl = new ...

5 ответов

stackoverflow.com/a/1732454/321973

у извлечь пару ссылок из html-страницы, скачанной из Интернета, я думаю, что использование linq to XML было бы хорошим решением для моего случая. Моя проблема в том, что я не могу создать XmlDocument из HTML, используя Load (string url) не ...

1 ответ

и мне пришлось их пропустить.

аюсь создать какой-нибудь xpath, который найдет всеa теги, которые не содержатimg теги, так что что-то вроде <a href="http://aol.com">link</a>спички, но <a href="http://yahoo.com"><img src="http://yahoo.com/logo.png"></a>не. Конечно, я мог бы ...