Результаты поиска по запросу "web-scraping"

1 ответ

scrapy xpath селектор повторяет данные

Я пытаюсь извлечь название и адрес компании из каждого списка и экспортировать их в -csv, но у меня возникают проблемы с выводом csv. Я думаю, что bizs = hxs.select ("// div [@ class = 'list_content']") может вызывать ...

1 ответ

Получить исходный код страницы с помощью HtmlUnit: URL застрял

Я пытаюсь получить источник страницы следующего URL с помощью метода ...

7 ответов

Как обращаться с IncompleteRead: в Python

Я пытаюсь получить некоторые данные с веб-сайта. Однако это возвращает меняincomplete read, Данные, которые я пытаюсь получить, представляют собой огромный набор вложенных ссылок. Я провел некоторые исследования в Интернете и обнаружил, что это ...

ТОП публикаций

7 ответов

используя Perl для очистки сайта

Я заинтересован в написании сценария Perl, который идет по следующей ссылке и извлекает номер ...

2 ответа

Выполнение очищенного JavaScript с помощью cheerio

У меня есть веб-страница, на которой есть некоторые JS API, которые не изменяют dom, но возвращают некоторые числа. Я хотел бы написать приложение NodeJS, которое загружает такие страницы и выполняет эти функции в контексте ...

6 ответов

Можно ли запустить jQuery на стороне сервера?

Я работаю над очисткой веб-страниц, реализована нумерация страниц AJAX, так как веб-сайт разработан в формате asp, то есть страница с расширением .aspx Я пытался отправить формы разбиения на страницы для получения данных с других страниц, кроме ...

2 ответа

HTML кодирование и разбор lxml

Я пытаюсь, наконец, решить некоторые проблемы с кодированием, которые возникают при попытке очистить HTML с помощью lxml. Вот три примера HTML-документов, с которыми я столкнулся: 1. <!DOCTYPE html> <html lang='en'> <head> <title>Unicode Chars: ...

4 ответа

Получить частичную веб-страницу

Есть ли способ ограничения количества данных, которые CURL будет получать? Я соскребаю данные со страницы размером 50 КБ, однако данные, которые мне нужны, находятся в верхней четверти страницы, поэтому мне нужно только извлечь первые 10 КБ ...

3 ответа

Как сделать так, чтобы блок do возвращался раньше?

Я пытаюсь наскрести веб-страницу с помощью Haskell и скомпилировать результаты в объект. Если по какой-либо причине я не могу получить все элементы со страниц, я хочу прекратить попытки обработать страницу и вернуться ...

4 ответа

scrapy- как остановить перенаправление (302)

Я пытаюсь сканировать URL с помощью Scrapy. Но он перенаправляет меня на страницу, которая не существует. Redirecting (302) to ...