Результаты поиска по запросу "web-crawler"
Как запросить у Google повторное сканирование моего сайта? [закрыто]
Кто-нибудь знает способ запросить Google повторно сканировать веб-сайт? Если возможно, это не должно длиться несколько месяцев. Мой сайт показывает старый заголовок в результатах поиска Google. Как я могу показать это с правильным названием и ...
Как дать URL для scrapy для сканирования?
Я хочу использовать scrapy для сканирования веб-страниц. Есть ли способ передать стартовый URL из самого терминала? Это дано вдокументация [http://doc.scrapy.org/en/0.12/topics/commands.html#std:command-crawl]что либо имя паука, либо URL-адрес ...
Как запустить Scrapy из скрипта Python
Я новичок в Scrapy и ищу способ запустить его из скрипта Python. Я нашел 2 источника, которые объясняют ...
Создание бота / сканера
Я хотел бы сделать небольшого бота, чтобы автоматически и периодически просматривать веб-сайты нескольких партнеров. Это сэкономило бы несколько часов многим сотрудникам здесь. Бот должен уметь: подключиться к этому сайту, на некоторых из них ...
Как создать правила для сканера ползунков с помощью scrapy
from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from manga.items import MangaItem class MangaHere(BaseSpider): name = "mangah" allowed_domains = ["mangahere.com"] start_urls ...
Apache Nutch 2.1 другой идентификатор партии (ноль)
Я сканирую несколько сайтов с Apache Nutch 2.1. Во время сканирования я вижу следующее сообщение на многих страницах: ех. ...
Как собрать данные с нескольких страниц в единую структуру данных с помощью скрапа
Я пытаюсь очистить данные с сайта. Данные структурированы как несколько объектов, каждый из которых содержит набор данных. Например, люди с именами, возрастами и профессиями. Моя проблема в том, что эти данные разделены на два уровня на ...
Scrapy - Паук ползет повторяющиеся URL
Я сканирую страницу результатов поиска и собираю информацию о заголовке и ссылке с той же страницы. Как и страница поиска, у меня также есть ссылки на следующие страницы, которые я указал в SgmlLinkExtractor, чтобы разрешить. Описание проблемы: ...
Как правильно использовать правила, restrict_xpaths, чтобы сканировать и анализировать URL с помощью scrapy?
Я пытаюсь запрограммировать паука для сканирования RSS-каналов веб-сайта, а затем анализировать метатеги статьи. Первая страница RSS - это страница, которая отображает категории RSS. Мне удалось извлечь ссылку, потому что тег находится в теге. ...
php crawl - включен JavaScript
Добрый день, кто-нибудь знает способ создания паука, который действует так, как будто у него включен JavaScript? PHP-код: file_get_contents("http://www.google.co.uk/search?hl=en&q=".$keyword."&start=".($x*10)."&sa=N") он будет получать выходные ...