Результаты поиска по запросу "web-crawler"

12 ответов

Какой будет ваша (if_clause) строковая часть для этого? mozilla / 5.0 (iphone; процессор iphone os 9_3 как mac os x) applewebkit / 601.1.46 (khtml, like gecko) версия / 9.0 mobile / 13e198 safari / 601.1

ожно определить ботов поисковой системы, используя php?

2 ответа

Пользовательский агент (который включает сканеры) не обязан соблюдать ваш robots.txt. Лучшее, что вы можете сделать, - это попытаться выявить неправильные шаблоны доступа (через веб-журналы и т. Д.) И заблокировать соответствующий IP-адрес.

орошая идея?? http://browsers.garykeith.com/stream.asp?RobotsTXT [http://browsers.garykeith.com/stream.asp?RobotsTXT] Что значит оскорбительное ползание? Как это плохо для моего сайта?

3 ответа

В вашем случае вы сначала извлечете местоположение PDF-файлов в пауке, извлечете их в конвейере и получите другой конвейер для сохранения элементов.

ужно сохранить файл (.pdf), но я не уверен, как это сделать. Мне нужно сохранить файлы .pdf и хранить их таким образом, чтобы они были организованы в каталоги, как они хранятся на сайте, который я их удаляю. Из того, что я могу собрать, мне ...

ТОП публикаций

1 ответ

Для чего нужен шебанг / хэшбанг?

Существуют ли другие способы использования шебангов / хэшбэнгов, кроме того, чтобы сделать содержимое AJAX доступным для Google? Или это все?

4 ответа

Сохранить все файлы изображений с веб-сайта

Я создаю небольшое приложение для себя, где я запускаю скрипт Ruby и сохраняю все изображения из моего блога. Я не могу понять, как сохранить файлы изображений после того, как я их определил. Любая помощь приветствуется. require 'rubygems' ...

3 ответа

Как сканировать данные регистрации в Foursquare?

Можно ли жадным способом сканировать данные регистрации из foursquare? (даже если у меня нет дружбы со всеми пользователями) Так же, как ползать общедоступные твиттер-сообщения. Если у вас есть опыт или предложения, пожалуйста, поделитесь. Благодарю.

2 ответа

Ruby + Anemone Web Crawler: регулярное выражение для сопоставления URL-адресов, заканчивающихся серией цифр

Предположим, я пытался просканировать веб-сайт и пропустить страницу, которая закончилась следующим ...

3 ответа

Отправить данные через веб-форму и извлечь результаты

Мой уровень питона - новичок. Я никогда не писал веб-скребок или сканер. Я написал код Python для подключения к API и извлечения данных, которые я хочу. Но для некоторых извлеченных данных я хочу получить пол автора. Я нашел ...

2 ответа

Если я делаю все на своей странице с Ajax, как я могу сделать поисковую оптимизацию?

Какова связь между сканерами и приложениями ajax? Считают ли веб-сканеры или браузеры динамически созданные метатеги? Я думал о: добавление якорей на страницусоздание постоянных ссылок на контентдинамически добавлять ...

8 ответов

Получить список URL-адресов с сайта [закрыто]

Я развертываю сайт замены для клиента, но он не хочет, чтобы все его старые страницы заканчивались в 404-х годах. Сохранить старую структуру URL было невозможно, потому что это было отвратительно. Поэтому я пишу обработчик 404, который должен ...