Результаты поиска по запросу "html-parsing"
UnicodeEncodeError с BeautifulSoup 3.1.0.1 и Python 2.5.2
то я сделал .. >>> soup = BeautifulSoup (html) >>> soup Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeEncodeError: 'ascii' codec can't encode character u'\xae' in position 96953: ordinal not in range(128) >>> ...
Пожалуйста, не полагайтесь на строковое представление объектов для логики вашего кода.
я есть следующий HTML-код, который находится в большем документе <br /> Important Text 1 <br /> <br /> Not Important Text <br /> Important Text 2 <br /> Important Text 3 <br /> <br /> Non Important Text <br /> Important Text 4 <br />В настоящее ...
stackoverflow.com/questions/53081241/...
ько начинаю в скрипте Google Apps. Поскольку лучшие практики кодирования рекомендуют использовать как можно меньше формул листа, я пытаюсь выполнить очистку веб-страниц с помощью GAS Parser, а затем перенести данные в мою электронную таблицу. На ...
из
аюсь очистить таблицу данных о ценах из этогоВеб-сайт [https://stooq.com/q/d/?s=barc.uk&i=d]используя следующий код; function scrapeData() { // Retrieve table as a string using Parser. var url = "https://stooq.com/q/d/?s=barc.uk&i=d"; var ...
Я думаю, что это удалит все содержимое тега h2. Я просто хочу заменить имя тега и оставить все остальное без изменений.
ользую python + BeautifulSoup для разбора HTML-документа. Теперь мне нужно заменить все<h2 class="someclass"> элементы в документе HTML, с<h1 class="someclass">. Как я могу изменить имя тега, не меняя ничего в документе?
Разбор HTML в python - lxml или BeautifulSoup? Какой из них лучше для каких целей?
Из того, что я могу разглядеть, две основные библиотеки парсинга HTML в Python - это lxml и BeautifulSoup. Я выбрал BeautifulSoup для проекта, над которым я работаю, но я выбрал его не по какой-то конкретной причине, кроме как найти синтаксис ...
Python BeautifulSoup скрести таблицы
Я пытаюсь создать скребок таблицы с BeautifulSoup. Я написал этот код Python: import urllib2 from bs4 import BeautifulSoup url = "http://dofollow.netsons.org/table1.htm" # change to whatever your url is page = urllib2.urlopen(url).read() soup = ...
Хорошо, спасибо всем. Я не заметил 301, но теперь я исправил
аюсь прочитать HTML-код из URL-соединения. В одном случае html-файл, который я пытаюсь прочитать, содержит 5 разрывов строк перед фактическим объявлением типа документа. В этом случае читатель ввода выдает исключение для EOF. URL pageUrl = new ...
stackoverflow.com/a/1732454/321973
у извлечь пару ссылок из html-страницы, скачанной из Интернета, я думаю, что использование linq to XML было бы хорошим решением для моего случая. Моя проблема в том, что я не могу создать XmlDocument из HTML, используя Load (string url) не ...
и мне пришлось их пропустить.
аюсь создать какой-нибудь xpath, который найдет всеa теги, которые не содержатimg теги, так что что-то вроде <a href="http://aol.com">link</a>спички, но <a href="http://yahoo.com"><img src="http://yahoo.com/logo.png"></a>не. Конечно, я мог бы ...