Результаты поиска по запросу "scrapy"

3 ответа

В вашем случае вы сначала извлечете местоположение PDF-файлов в пауке, извлечете их в конвейере и получите другой конвейер для сохранения элементов.

ужно сохранить файл (.pdf), но я не уверен, как это сделать. Мне нужно сохранить файлы .pdf и хранить их таким образом, чтобы они были организованы в каталоги, как они хранятся на сайте, который я их удаляю. Из того, что я могу собрать, мне ...

2 ответа

Синтаксис функции scrapy и xpath 'соответствует'

Я бегу scrapy 0.20.2. $ scrapy shell "http://newyork.craigslist.org/ata/"Я хотел бы сделать список всех ссылок на рекламные страницы отдельно от index.html $ sel.xpath('//a[contains(@href,html)]') ... ...

2 ответа

Как избежать перенаправления

Я пытаюсь разобрать сайт (написанный на ASP), и сканер перенаправляется на основной сайт. Но то, что я хотел бы сделать, это проанализировать данный URL, а не перенаправленный. Есть ли способ сделать это?. Я попытался добавить "REDIRECT = False" ...

ТОП публикаций

1 ответ

Настройка промежуточного программного обеспечения прокси Scrapy для поворота при каждом запросе

Этот вопрос обязательно входит в две формы, потому что я не знаю лучшего пути к решению. Сайт, который я просматриваю, часто пинает меня на перенаправленную страницу «Пользователь заблокирован», но частота (по запросам / времени) ...

4 ответа

Выполнение заданий Scrapy в Python

Мой скрипт Scrapy работает нормально, когда я запускаю его в сценариях «один раз» из командной строки, но если я пытаюсь запустить код дважды в одном сеансе Python, я получаю эту ошибку: "ReactorNotRestartable" Почему? Код нарушителя ...

1 ответ

использование tor с каркасом Scrapy

Я пытаюсь сканировать веб-сайт, который достаточно сложен, чтобы остановить ботов, я имею в виду, что он разрешает только несколько запросов, после чего зависает Scrapy. Вопрос 1: есть ли способ, если Scrapy зависает, я могу возобновить ...

3 ответа

Scrapy прочитать список URL-адресов из файла, чтобы очистить?

Я только что установил scrapy и следовал за их простым dmozруководство [http://doc.scrapy.org/en/latest/intro/tutorial.html]который работает. Я просто просмотрел базовую обработку файлов для python и попытался заставить сканер прочитать список ...

8 ответов

Можно ли использовать scrapy для удаления динамического контента с веб-сайтов, использующих AJAX?

Недавно я изучал Python и погружаюсь в создание веб-скребка. Ничего особенного; его единственная цель - получить данные с веб-сайта для ставок и поместить их в Excel. Большинство проблем решаемы, и у меня есть хороший маленький беспорядок ...

2 ответа

Доступ к сессионному файлу cookie в паутинах

Я пытаюсь получить доступ к сессионному cookie внутри паука. Сначала я захожу в социальную сеть, используя паука: def parse(self, response): return [FormRequest.from_response(response, formname='login_form', formdata={'email': '...', ...

1 ответ

Как повторить попытку для 404 ссылки, не найденной в scrapy?

Некоторые сайты выдают ошибку 404 временно. Но я вставляю в браузер, это работает. Как сказать scrapy повторить попытку 404 ссылок кода статуса 5 раз.