Не все сайты имеют «If-Modified-Since». Посмотрите на «Last-Modified», чтобы помочь.

рабатываю систему, которая должна отслеживать содержимое нескольких порталов и проверять изменения каждую ночь (например, загружать и индексировать новые сайты, которые были добавлены в течение дня). Содержимое этих порталов будет проиндексировано для поиска. Проблема заключается в повторном сканировании этих порталов - первое сканирование портала занимает очень много времени (примеры порталов: www.onet.pl, www.bankier.pl, www.gazeta.pl)и я хочу пересмотреть его быстрее (настолько быстро, насколько это возможно) например, проверяя дату изменения, но я использовалWget загрузить www.bankier.pl, но в ответ жалуется, что заголовок последней модификации отсутствует. Есть ли способ повторно сканировать так много сайтов? Я также пытался использовать Nutch, но сценарий для повторного захвата, кажется, не работает должным образом - или это также зависит от этих заголовков (последний измененный). Может быть, есть инструмент, сканер (например, Nutch или что-то), который может обновить уже загруженные сайты, добавив новый ??

С уважением, Войтек

Ответы на вопрос(2)

Ваш ответ на вопрос