Как отфильтровать повторяющиеся запросы на основе URL в scrapy

Question

Sep 23, 2012, 02:25 PM

Как отфильтровать повторяющиеся запросы на основе URL в scrapy

Я пишу сканер для веб-сайта, использующего скрапинг с CrawlSpider.

Scrapy предоставляет встроенный фильтр повторяющихся запросов, который фильтрует повторяющиеся запросы на основе URL. Также я могу фильтровать запросы используяправила член CrawlSpider.

Что я хочу сделать, это отфильтровать запросы, как:

http:://www.abc.com/p/xyz.html?id=1234&refer=5678

Если я уже посетил

http:://www.abc.com/p/xyz.html?id=1234&refer=4567

НОТА: ссылка это параметр, который нене влияет на ответ, который я получаю, поэтому я невсе равно, если значение этого параметра изменится.

Теперь, если у меня есть набор, который накапливает всеидентификаторы Я мог игнорировать это в моей функции обратного вызоваparse_item (тот'моя функция обратного вызова) для достижения этой функциональности.

Но это означало бы, что я по крайней мере получаю эту страницу, когда я неТ надо.

Так как же я могу сказать скрапу, что он не долженотправить конкретный запрос на основе URL?

Как отфильтровать повторяющиеся запросы на основе URL в scrapy

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как отфильтровать повторяющиеся запросы на основе URL в scrapy

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы