Результаты поиска по запросу "scrapy"

2 ответа

Scrapy, соскребая данные внутри Javascript

Я используюscrapy [https://scrapy.org/]скрининг данных с веб-сайта. Тем не менее, данные, которые я хотел, находились не внутри самого html, а из javascript. Итак, мой вопрос: Как получить значения (текстовые значения) таких случаев? Это сайт, ...

1 ответ

Я запускал кэшированные прогоны для изменений разработки и ежедневные cronjobs для обнаружения изменений на сайте.

ел бы реализовать некоторые модульные тесты в Scrapy (скребок экрана / веб-сканер). Поскольку проект запускается с помощью команды «scrapy crawl», я могу запустить его через что-то вроде носа. Так как Scrapy построен на основе витой, могу ли я ...

1 ответ

Соскоб с помощью Scrapy и Selenium

У меня есть паук-скрап, который сканирует сайт, который перезагружает контент через javascript на странице. Чтобы перейти к следующей странице, я использовал Selenium, чтобы щелкнуть ссылку месяца в верхней части сайта. Проблема в том, что, хотя ...

ТОП публикаций

2 ответа

Scrapy Очень Простой Пример

Привет, у меня на Mac установлен Python Scrapy, и я пытался следоватьочень первый пример [http://doc.scrapy.org/en/0.18/intro/overview.html#run-the-spider-to-extract-the-data] в их сети. Они пытались запустить команду: scrapy crawl mininova.org ...

5 ответов

В вашем случае вы бы использовали это так:

равил код, основанный на решениях, предложенных ниже великими людьми здесь; Я получаю ошибку, показанную ниже кода здесь. from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from scrapy.utils.response import ...

10 ответов

<code> settings.py <\ code> - это файл по умолчанию в структуре scrapy, а не дополнительный файл.

моя проблема относительно проста. У меня есть один паук, сканирующий несколько сайтов, и мне нужно, чтобы он возвращал данные в том порядке, в котором я записал их в своем коде. Это размещено ниже. from scrapy.spider import BaseSpider from ...

1 ответ

 он был загружен (скорее всего, сделан XmlHttpRequest, который загружает дополнительный контент).

ожусь в середине проекта слома с использованием Scrapy. Я понял, что Scrapy убирает URL из хеш-тега до конца. Вот вывод из оболочки: [s] request ...

2 ответа

Как вы можете видеть, методы запроса добавляются в отсортированном порядке (большее число добавляется сзади), а методы ответа и исключения вставляются в начале (большее число идет первым).

yдокументация [http://doc.scrapy.org/topics/downloader-middleware.html#activating-a-downloader-middleware] говорит: первое промежуточное ПО ближе к движку, а последнее ближе к загрузчику. Чтобы решить, какой порядок назначить промежуточному ...

3 ответа

Для правильного и полного использования JavaScript вам нужен полноценный браузерный движок, и это возможно только с Watir / WatiN / Selenium и т. Д.

ользую Scrapy для сканирования веб-страницы. Некоторая информация, которая мне нужна, появляется только при нажатии на определенную кнопку (конечно, она также появляется в HTML-коде после нажатия). Я обнаружил, что Scrapy может обрабатывать ...

2 ответа

Как я могу использовать атрибут fields_to_export в BaseItemExporter для упорядочивания моих данных Scrapy CSV?

Я сделал простойScrapy [http://doc.scrapy.org/en/latest/index.html]spider, который я использую из командной строки для экспорта моих данных в формат CSV, но порядок данных кажется случайным. Как я могу заказать поля CSV в моем выводе? Я ...