Результаты поиска по запросу "scrapy"

2 ответа

Динамические веб-сайты Python Scrapy

Я пытаюсь очистить очень простую веб-страницу с помощью Scrapy и ее селекторов xpath, но по какой-то причине мои селекторы не работают в Scrapy, но они работают в других утилитах xpath Я пытаюсь разобрать этот фрагмент HTML: <select ...

6 ответов

Как дать URL для scrapy для сканирования?

Я хочу использовать scrapy для сканирования веб-страниц. Есть ли способ передать стартовый URL из самого терминала? Это дано вдокументация [http://doc.scrapy.org/en/0.12/topics/commands.html#std:command-crawl]что либо имя паука, либо URL-адрес ...

4 ответа

Отсутствует схема в URL запроса

Я застрял на этой ошибке некоторое время, следующее сообщение об ошибке выглядит следующим образом: File "C:\Python27\lib\site-packages\scrapy-0.20.2-py2.7.egg\scrapy\http\request\__init__.py", line 61, in _set_url raise ValueError('Missing ...

ТОП публикаций

1 ответ

Scrapy: создать структуру папок из загруженных изображений на основе URL, из которого загружаются изображения

У меня есть массив ссылок, которые определяют структуру сайта. При загрузке изображений по этим ссылкам я хочу одновременно поместить загруженные изображения в структуру папок, аналогичную структуре веб-сайта, а не просто переименовать ее (как ...

6 ответов

Как запустить Scrapy из скрипта Python

Я новичок в Scrapy и ищу способ запустить его из скрипта Python. Я нашел 2 источника, которые объясняют ...

5 ответов

Как я могу извлечь только текст в селектор Scrapy в Python

У меня есть этот код site = hxs.select("//h1[@class='state']") log.msg(str(site[0].extract()),level=log.ERROR)Выход является [scrapy] ERROR: <h1 class="state"><strong> 1</strong> <span> job containing <strong>php</strong> in ...

1 ответ

Как я могу использовать Scrapy Shell с параметрами на URL

Я хочу отменить работу сайта. Я хочу провести тестирование в оболочке Scrapy. Следовательно, если я наберу это scrapy shell http://www.seek.com.au Тогда, если я наберу from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor тогда ...

1 ответ

Лоскутный ответ отличается от ответа браузера

Я пытаюсь наскрести эту страницу с помощью скрапа: http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=7391и ответ, который я получаю, отличается от того, что я вижу в браузере. Ответ браузера имеет правильную страницу, а ответ ...

4 ответа

Scrapy Modify Link включает доменное имя

У меня есть предмет,item['link'], этой формы: item['link'] = site.select('div[2]/div/h3/a/@href').extract()Ссылки, которые он извлекает, имеют следующую форму: 'link': [u'/watch?v=1PTw-uy6LA0&list=SP3DB54B154E6D121D&index=189'],Я хочу, чтобы ...

2 ответа

Как добавить заголовки в запросы Scrapy CrawlSpider?

Я работаю с классом CrawlSpider для сканирования веб-сайта, и я хотел бы изменить заголовки, которые отправляются в каждом запросе. В частности, я бы хотел добавить к запросу реферер. Согласноэтот ...