Результаты поиска по запросу "scrapy"
Динамические веб-сайты Python Scrapy
Я пытаюсь очистить очень простую веб-страницу с помощью Scrapy и ее селекторов xpath, но по какой-то причине мои селекторы не работают в Scrapy, но они работают в других утилитах xpath Я пытаюсь разобрать этот фрагмент HTML: <select ...
Как дать URL для scrapy для сканирования?
Я хочу использовать scrapy для сканирования веб-страниц. Есть ли способ передать стартовый URL из самого терминала? Это дано вдокументация [http://doc.scrapy.org/en/0.12/topics/commands.html#std:command-crawl]что либо имя паука, либо URL-адрес ...
Отсутствует схема в URL запроса
Я застрял на этой ошибке некоторое время, следующее сообщение об ошибке выглядит следующим образом: File "C:\Python27\lib\site-packages\scrapy-0.20.2-py2.7.egg\scrapy\http\request\__init__.py", line 61, in _set_url raise ValueError('Missing ...
Scrapy: создать структуру папок из загруженных изображений на основе URL, из которого загружаются изображения
У меня есть массив ссылок, которые определяют структуру сайта. При загрузке изображений по этим ссылкам я хочу одновременно поместить загруженные изображения в структуру папок, аналогичную структуре веб-сайта, а не просто переименовать ее (как ...
Как запустить Scrapy из скрипта Python
Я новичок в Scrapy и ищу способ запустить его из скрипта Python. Я нашел 2 источника, которые объясняют ...
Как я могу извлечь только текст в селектор Scrapy в Python
У меня есть этот код site = hxs.select("//h1[@class='state']") log.msg(str(site[0].extract()),level=log.ERROR)Выход является [scrapy] ERROR: <h1 class="state"><strong> 1</strong> <span> job containing <strong>php</strong> in ...
Как я могу использовать Scrapy Shell с параметрами на URL
Я хочу отменить работу сайта. Я хочу провести тестирование в оболочке Scrapy. Следовательно, если я наберу это scrapy shell http://www.seek.com.au Тогда, если я наберу from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor тогда ...
Лоскутный ответ отличается от ответа браузера
Я пытаюсь наскрести эту страницу с помощью скрапа: http://www.barnesandnoble.com/s?dref=4815&sort=SA&startat=7391и ответ, который я получаю, отличается от того, что я вижу в браузере. Ответ браузера имеет правильную страницу, а ответ ...
Scrapy Modify Link включает доменное имя
У меня есть предмет,item['link'], этой формы: item['link'] = site.select('div[2]/div/h3/a/@href').extract()Ссылки, которые он извлекает, имеют следующую форму: 'link': [u'/watch?v=1PTw-uy6LA0&list=SP3DB54B154E6D121D&index=189'],Я хочу, чтобы ...
Как добавить заголовки в запросы Scrapy CrawlSpider?
Я работаю с классом CrawlSpider для сканирования веб-сайта, и я хотел бы изменить заголовки, которые отправляются в каждом запросе. В частности, я бы хотел добавить к запросу реферер. Согласноэтот ...