Результаты поиска по запросу "web-crawler"

6 ответов

Scrapy - Реактор не перезапускается

с:

2 ответа

http://www.harvestmanontheweb.com/

ужно сканировать и хранить локально для последующего анализа содержимого конечного списка веб-сайтов. Я в основном хочу бродить по всем страницам и переходит...

4 ответа

Выход:

ался извлечь текст таблицы сайта вместе с ее ссылкой из данной таблицы (которая находится на site1.com) на мою страницу php, используя веб-сканер.Но, к сожал...

ТОП публикаций

3 ответа

Scrapy SgmlLinkExtractor вопрос

Я пытаюсь заставить работать SgmlLinkExtractor. Это подпись: SgmlLinkExtractor(allow=(), deny=(), allow_domains=(), deny_domains=(), restrict_xpaths(), tags=('a', 'area'), attrs=('href'), canonicalize=True, unique=True, process_value=None)Я ...

2 ответа

к тому времени, когда CrawlSpider достигает второго URL-адреса, правила больше не являются правильными, поскольку они основаны на первом URL-адресе.

у Scrapy Scrapper, который использует CrawlSpider для сканирования сайтов, просмотра их внутренних ссылок и очистки содержимого любых внешних ссылок (ссылок ...

2 ответа

Является ли строка User-Agent в robots.txt точным совпадением или совпадением подстроки?

Когда сканер читает строку User-Agent файла robots.txt, он пытается точно сопоставить ее со своим собственным User-Agent или пытается сопоставить ее как подстроку своего User-Agent? Все, что я прочитал, явно не отвечает на этот вопрос. Согласно ...

2 ответа

 менять! : /

1 ответ

Scrapy SgmlLinkExtractor игнорирует разрешенные ссылки

Пожалуйста, посмотрите наэтот пример паука [http://doc.scrapy.org/topics/spiders.html#crawlspider-example]в документации Scrapy. Объяснение: Этот паук начнет сканировать домашнюю страницу example.com, собирать ссылки на категории и ссылки на ...

2 ответа

 дурака! Если вы установите определенные версии панели инструментов Ask.com (по крайней мере, в IE), она изменит пользовательский агент, добавив в какой-либо форме «Ask», что приведет к ложным срабатываниям.

ал, почему Request.Browser.Crawler всегда ложен в C # (http://www.digcode.com/default.aspx?page=ed51cde3-d979-4daf-afae-fa6192562ea9&article=bc3a7a4f-f53...

4 ответа

Для простых веб-сайтов (= только обычный html) Mechanize работает очень хорошо и быстро. Для сайтов, которые используют Javascript, AJAX или даже Flash, вам нужно реальное браузерное решение, такое как iMacros.

ужна мощная библиотека веб-скребка для добычи содержимого из Интернета. Это может быть платным или бесплатным, и мне будет хорошо. Пожалуйста, предложите мне...