Результаты поиска по запросу "scrapy"

1 ответ

scrapy xpath селектор повторяет данные

Я пытаюсь извлечь название и адрес компании из каждого списка и экспортировать их в -csv, но у меня возникают проблемы с выводом csv. Я думаю, что bizs = hxs.select ("// div [@ class = 'list_content']") может вызывать ...

1 ответ

Scrapy: почему у моего объекта ответа нет метода body_as_unicode?

Я написал паука, который работал блестяще в первый раз. Во второй раз, когда я попытался запустить его, он не рискнул выйти за рамкиstart_urls, Я попыталсяfetch URL вscrapy shell и создатьHtmlXPathSelector объект из возвращенного ответа. Вот ...

1 ответ

Как создать правила для сканера ползунков с помощью scrapy

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from manga.items import MangaItem class MangaHere(BaseSpider): name = "mangah" allowed_domains = ["mangahere.com"] start_urls ...

ТОП публикаций

1 ответ

Проект Scrapy не может найти django.core.management

Я пытаюсь следовать методуВот [https://stackoverflow.com/questions/7883196/saving-django-model-from-scrapy-project] «Scrapy» данные из Интернета и одновременно сохранить эти данные непосредственно в моей базе данных Django с помощью конвейера ...

2 ответа

Сканирование Scrapy из скрипта всегда блокирует выполнение скрипта после очистки

Я следую этому руководству http://doc.scrapy.org/en/0.16/topics/practices.html#run-scrapy-from-a-script [http://doc.scrapy.org/en/0.16/topics/practices.html#run-scrapy-from-a-script] запустить scrap из моего сценария. Вот часть моего ...

1 ответ

Как собрать данные с нескольких страниц в единую структуру данных с помощью скрапа

Я пытаюсь очистить данные с сайта. Данные структурированы как несколько объектов, каждый из которых содержит набор данных. Например, люди с именами, возрастами и профессиями. Моя проблема в том, что эти данные разделены на два уровня на ...

1 ответ

Включение HttpProxyMiddleware в scrapyd

Прочитав документацию по scrapy, я подумал, что HttpProxyMiddleware включен по умолчанию. Но когда я запускаю паука через интерфейс веб-сервиса scrapyd, HttpProxyMiddleware не включается. Я получаю следующий вывод: 2013-02-18 23:51:01+1300 ...

1 ответ

Scrapy - Паук ползет повторяющиеся URL

Я сканирую страницу результатов поиска и собираю информацию о заголовке и ссылке с той же страницы. Как и страница поиска, у меня также есть ссылки на следующие страницы, которые я указал в SgmlLinkExtractor, чтобы разрешить. Описание проблемы: ...

1 ответ

Как правильно использовать правила, restrict_xpaths, чтобы сканировать и анализировать URL с помощью scrapy?

Я пытаюсь запрограммировать паука для сканирования RSS-каналов веб-сайта, а затем анализировать метатеги статьи. Первая страница RSS - это страница, которая отображает категории RSS. Мне удалось извлечь ссылку, потому что тег находится в теге. ...

1 ответ

Scrapy Python Craigslist Скребок

Я пытаюсь почистить объявления Craigslist, используяScrapy извлекать предметы, предназначенные для продажи. Я могу извлечьдата, заголовок и URL-адрес но у меня проблемы с извлечениемцена. По какой-то причине текущий код извлекаетвсе цен, но ...