Результаты поиска по запросу "web-scraping"
scrapy xpath селектор повторяет данные
Я пытаюсь извлечь название и адрес компании из каждого списка и экспортировать их в -csv, но у меня возникают проблемы с выводом csv. Я думаю, что bizs = hxs.select ("// div [@ class = 'list_content']") может вызывать ...
Получить исходный код страницы с помощью HtmlUnit: URL застрял
Я пытаюсь получить источник страницы следующего URL с помощью метода ...
Как обращаться с IncompleteRead: в Python
Я пытаюсь получить некоторые данные с веб-сайта. Однако это возвращает меняincomplete read, Данные, которые я пытаюсь получить, представляют собой огромный набор вложенных ссылок. Я провел некоторые исследования в Интернете и обнаружил, что это ...
используя Perl для очистки сайта
Я заинтересован в написании сценария Perl, который идет по следующей ссылке и извлекает номер ...
Выполнение очищенного JavaScript с помощью cheerio
У меня есть веб-страница, на которой есть некоторые JS API, которые не изменяют dom, но возвращают некоторые числа. Я хотел бы написать приложение NodeJS, которое загружает такие страницы и выполняет эти функции в контексте ...
Можно ли запустить jQuery на стороне сервера?
Я работаю над очисткой веб-страниц, реализована нумерация страниц AJAX, так как веб-сайт разработан в формате asp, то есть страница с расширением .aspx Я пытался отправить формы разбиения на страницы для получения данных с других страниц, кроме ...
HTML кодирование и разбор lxml
Я пытаюсь, наконец, решить некоторые проблемы с кодированием, которые возникают при попытке очистить HTML с помощью lxml. Вот три примера HTML-документов, с которыми я столкнулся: 1. <!DOCTYPE html> <html lang='en'> <head> <title>Unicode Chars: ...
Получить частичную веб-страницу
Есть ли способ ограничения количества данных, которые CURL будет получать? Я соскребаю данные со страницы размером 50 КБ, однако данные, которые мне нужны, находятся в верхней четверти страницы, поэтому мне нужно только извлечь первые 10 КБ ...
Как сделать так, чтобы блок do возвращался раньше?
Я пытаюсь наскрести веб-страницу с помощью Haskell и скомпилировать результаты в объект. Если по какой-либо причине я не могу получить все элементы со страниц, я хочу прекратить попытки обработать страницу и вернуться ...
scrapy- как остановить перенаправление (302)
Я пытаюсь сканировать URL с помощью Scrapy. Но он перенаправляет меня на страницу, которая не существует. Redirecting (302) to ...