Результаты поиска по запросу "web-crawler"

5 ответов

Как запросить у Google повторное сканирование моего сайта? [закрыто]

Кто-нибудь знает способ запросить Google повторно сканировать веб-сайт? Если возможно, это не должно длиться несколько месяцев. Мой сайт показывает старый заголовок в результатах поиска Google. Как я могу показать это с правильным названием и ...

6 ответов

Как дать URL для scrapy для сканирования?

Я хочу использовать scrapy для сканирования веб-страниц. Есть ли способ передать стартовый URL из самого терминала? Это дано вдокументация [http://doc.scrapy.org/en/0.12/topics/commands.html#std:command-crawl]что либо имя паука, либо URL-адрес ...

6 ответов

Как запустить Scrapy из скрипта Python

Я новичок в Scrapy и ищу способ запустить его из скрипта Python. Я нашел 2 источника, которые объясняют ...

ТОП публикаций

1 ответ

Создание бота / сканера

Я хотел бы сделать небольшого бота, чтобы автоматически и периодически просматривать веб-сайты нескольких партнеров. Это сэкономило бы несколько часов многим сотрудникам здесь. Бот должен уметь: подключиться к этому сайту, на некоторых из них ...

1 ответ

Как создать правила для сканера ползунков с помощью scrapy

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from manga.items import MangaItem class MangaHere(BaseSpider): name = "mangah" allowed_domains = ["mangahere.com"] start_urls ...

1 ответ

Apache Nutch 2.1 другой идентификатор партии (ноль)

Я сканирую несколько сайтов с Apache Nutch 2.1. Во время сканирования я вижу следующее сообщение на многих страницах: ех. ...

1 ответ

Как собрать данные с нескольких страниц в единую структуру данных с помощью скрапа

Я пытаюсь очистить данные с сайта. Данные структурированы как несколько объектов, каждый из которых содержит набор данных. Например, люди с именами, возрастами и профессиями. Моя проблема в том, что эти данные разделены на два уровня на ...

1 ответ

Scrapy - Паук ползет повторяющиеся URL

Я сканирую страницу результатов поиска и собираю информацию о заголовке и ссылке с той же страницы. Как и страница поиска, у меня также есть ссылки на следующие страницы, которые я указал в SgmlLinkExtractor, чтобы разрешить. Описание проблемы: ...

1 ответ

Как правильно использовать правила, restrict_xpaths, чтобы сканировать и анализировать URL с помощью scrapy?

Я пытаюсь запрограммировать паука для сканирования RSS-каналов веб-сайта, а затем анализировать метатеги статьи. Первая страница RSS - это страница, которая отображает категории RSS. Мне удалось извлечь ссылку, потому что тег находится в теге. ...

1 ответ

php crawl - включен JavaScript

Добрый день, кто-нибудь знает способ создания паука, который действует так, как будто у него включен JavaScript? PHP-код: file_get_contents("http://www.google.co.uk/search?hl=en&q=".$keyword."&start=".($x*10)."&sa=N") он будет получать выходные ...