Как отфильтровать повторяющиеся запросы на основе URL в scrapy

Question

May 20, 2015, 12:48 AM

Как отфильтровать повторяющиеся запросы на основе URL в scrapy

Я пишу сканер для веб-сайта, использующего скрапинг с CrawlSpider.

Scrapy предоставляет встроенный фильтр повторяющихся запросов, который фильтрует повторяющиеся запросы на основе URL. Также я могу фильтровать запросы используяrules член CrawlSpider.

Что я хочу сделать, это отфильтровать запросы, как:

http:://www.abc.com/p/xyz.html?id=1234&refer=5678

Если я уже посетил

http:://www.abc.com/p/xyz.html?id=1234&refer=4567

NOTE: refer is a parameter that doesn't affect the response I get, so I don't care if the value of that parameter changes.

Теперь, если у меня есть набор, который накапливает всеids Я мог игнорировать это в моей функции обратного вызоваparse_item (это моя функция обратного вызова) для достижения этой функциональности.

Но это означало бы, что я все еще загружаю эту страницу, когда мне это не нужно.

Так каким образом я могу сказать scrapy, что он не должен отправлять конкретный запрос на основе URL?

Комментировать

Как отфильтровать повторяющиеся запросы на основе URL в scrapy

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы