Захват HTTP-кодов состояния с помощью паука-скрапа

Я новичок в области терапии. Я пишу паука, предназначенного для проверки длинного списка URL-адресов для кодов состояния сервера и, при необходимости, на какие URL они перенаправлены. Важно отметить, что при наличии цепочки перенаправлений мне нужно знать код состояния и URL-адрес при каждом переходе. Я использую response.meta ["redirect_urls"] для захвата URL-адресов, но не уверен, как захватить коды состояния - похоже, мета-ключ ответа для него не существует.

Я понимаю, что мне может понадобиться написать какую-нибудь специальную промежуточную одежду, чтобы раскрыть эти значения, но не совсем понятно, как регистрировать коды состояния для каждого прыжка, или как получить доступ к этим значениям из паука. Я посмотрел, но не могу найти пример того, кто это делает. Если кто-нибудь может указать мне правильное направление, это будет очень цениться.

Например,

    items = []
    item = RedirectItem()
    item['url'] = response.url
    item['redirected_urls'] = response.meta['redirect_urls']     
    item['status_codes'] = #????
    items.append(item)

Edit - На основе отзывов от warawauk и некоторой действительно активной помощи от ребят на канале IRC (freenode #scrappy) мне удалось это сделать. Я считаю, что это немного хакерски, поэтому любые комментарии по улучшению приветствуются:

(1) Отключите промежуточное ПО по умолчанию в настройках и добавьте свое собственное:

DOWNLOADER_MIDDLEWARES = {
    'scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware': None,
    'myproject.middlewares.CustomRedirectMiddleware': 100,
}

(2) Создайте свое CustomRedirectMiddleware в файле middlewares.py. Он наследуется от основного класса redirectmiddleware и перехватывает перенаправление:

class CustomRedirectMiddleware(RedirectMiddleware):
    """Handle redirection of requests based on response status and meta-refresh html tag"""

    def process_response(self, request, response, spider):
        #Get the redirect status codes
        request.meta.setdefault('redirect_status', []).append(response.status)
        if 'dont_redirect' in request.meta:
            return response
        if request.method.upper() == 'HEAD':
            if response.status in [301, 302, 303, 307] and 'Location' in response.headers:
                redirected_url = urljoin(request.url, response.headers['location'])
                redirected = request.replace(url=redirected_url)

                return self._redirect(redirected, request, spider, response.status)
            else:
                return response

        if response.status in [302, 303] and 'Location' in response.headers:
            redirected_url = urljoin(request.url, response.headers['location'])
            redirected = self._redirect_request_using_get(request, redirected_url)
            return self._redirect(redirected, request, spider, response.status)

        if response.status in [301, 307] and 'Location' in response.headers:
            redirected_url = urljoin(request.url, response.headers['location'])
            redirected = request.replace(url=redirected_url)
            return self._redirect(redirected, request, spider, response.status)

        if isinstance(response, HtmlResponse):
            interval, url = get_meta_refresh(response)
            if url and interval < self.max_metarefresh_delay:
                redirected = self._redirect_request_using_get(request, url)
                return self._redirect(redirected, request, spider, 'meta refresh')


        return response

(3) Теперь вы можете получить доступ к списку перенаправлений в вашем пауке с

request.meta['redirect_status']
 raben14 мар. 2013 г., 17:37
Вы должны опубликовать свое решение в качестве ответа

Ответы на вопрос(3)

Я полагаю, что это доступно как

response.status

Увидетьhttp://doc.scrapy.org/en/0.14/topics/request-response.html#scrapy.http.Response

 11 июн. 2012 г., 17:11
О, я понимаю, я неправильно понял. Тогда я думаю, что вам нужно подклассscrapy.contrib.spidermiddleware.SpiderMiddleware в соответствии сdoc.scrapy.org/en/0.14/topics/… и переопределитьprocess_spider_input добавить промежуточные коды состояния, скажем,response.meta['status_codes'] который должен быть инициализирован как пустой список. Но я не пробовал это.
 11 июн. 2012 г., 17:04
Вы также можете добавить код состояния так же, как вы, очевидно, заполняете [& apos; redirect_urls & apos;];);)
 reportingmonkey11 июн. 2012 г., 17:14
Спасибо Сяак. Это идеальный вариант, однако я не заполняю request.meta ['redirect_urls'] - он заполняется где-то по умолчанию промежуточным программным обеспечением scrapy. Это специальный ключ request.meta -scrapy request-response docs, В документации говорится, что мета-поле может содержать произвольные данные, но я не уверен, как расширить его, чтобы захватить response.status для каждого перенаправления.
 reportingmonkey11 июн. 2012 г., 17:01
Спасибо за ваш ответ Линделоф. Моя сложность заключается в том, что типичное использование response.status дает вам статус ответа окончательного ответа после всех перенаправлений. Мне нужен response.status для каждого прыжка, и я не понимаю, как захватить их все. Имеет ли это смысл?
 reportingmonkey11 июн. 2012 г., 17:30
Спасибо, Линделоф. Я следую за вами и попробовал несколько вариантов. Моя проблема заключается в том, что мне не удается создать экземпляр response.meta ["status_codes"] по какой-то (вероятно, очень простой) причине. Я получаю исключения. KeyError: & quot; status_codes & apos ;. Не могли бы вы посоветовать, что добавить к этому ниже, чтобы решить эту проблему? Класс RedirectMiddleware (объект): def process_spider_input (response, spider): response.meta [& quot; status_codes & apos;]. append (response.status)

Решение KISS: я подумал, что было бы лучше добавить строгий минимум кода для захвата нового поля перенаправления, и пусть RedirectMiddleware сделает все остальное:

from scrapy.contrib.downloadermiddleware.redirect import RedirectMiddleware

class CustomRedirectMiddleware(RedirectMiddleware):
  """Handle redirection of requests based on response status and meta-refresh html tag"""

  def process_response(self, request, response, spider):
    #Get the redirect status codes
    request.meta.setdefault('redirect_status', []).append(response.status)
    response = super(CustomRedirectMiddleware, self).process_response(request, response, spider)
    return response

Затем, создав подкласс BaseSpider, вы можете получить доступ к redirect_status с помощью следующего:

    def parse(self, response):
      item = ScrapyGoogleindexItem()
      item['redirections'] = response.meta.get('redirect_times', 0)
      item['redirect_status'] = response.meta['redirect_status']
      return item

response.meta['redirect_urls' населёнRedirectMiddleware, Ваш обратный вызов паука никогда не будет получать промежуточные ответы, только последний после всех перенаправлений.

Если вы хотите контролировать процесс, подклассRedirectMiddleware, отключите оригинальный и включите свой. Затем вы можете контролировать процесс перенаправления, включая отслеживание статусов ответов.

Вот оригинальная реализация (scrapy.contrib.downloadermiddleware.redirect.RedirectMiddleware):

class RedirectMiddleware(object):
    """Handle redirection of requests based on response status and meta-refresh html tag"""

    def _redirect(self, redirected, request, spider, reason):
        ...
            redirected.meta['redirect_urls'] = request.meta.get('redirect_urls', []) + \
                [request.url]

Как вы видите_redirect метод, который вызывается из разных частей создаетmeta['redirect_urls']

И вprocess_response методreturn self._redirect(redirected, request, spider, response.status) называется, это означает, что оригинальный ответ не передается пауку.

 reportingmonkey13 июн. 2012 г., 15:29
Спасибо, warwaruk, это имеет смысл. Я смотрел на redirectmiddleware. Я думаю, что могу перепроектировать эту часть. Я думаю, что я все еще что-то здесь упускаю, хотя этот класс ссылается на request.meta.get ["redirect_urls"], так что я думаю, что значения передаются для каждого запроса. Это также имеет смысл, но я не могу найти, где это на самом деле происходит. Я отредактирую свой исходный пост, чтобы узнать, смогу ли я уточнить, где я борюсь
 13 июн. 2012 г., 17:14
@ user1449163, это промежуточное ПО, которое создаетmeta['redirect_urls'] - смотрите обновление к ответу

Ваш ответ на вопрос