Результаты поиска по запросу "web-crawler"

1 ответ

Ошибки относительно Web Crawler в PHP

Я пытаюсь создать простой веб-сканер, использующий PHP, который способен сканировать домены .edu, при условии, что исходные URL родительского. Я использовал простой html dom для реализации сканера, в то время как некоторая основная логика ...

3 ответа

Как игнорировать типы файлов в веб-сканере?

Я пишу сканер и хочу игнорировать URL-адреса, которые ссылаются на двоичные файлы: $exclude = %w(flv swf png jpg gif asx zip rar tar 7z gz jar js css dtd xsd ico raw mp3 mp4 wav wmv ape aac ac3 wma aiff mpg mpeg avi mov ogg mkv mka asx asf mp2 ...

3 ответа

Как создать сканер Python для сайтов, использующих oauth2

Я новичок в веб-программировании. Я хочу создать сканер для сканирования социального графа в Foursquare от Python. У меня есть «вручную» управляемый гусеничный ход с помощьюapiv2 библиотека. Основной метод похож на: def main(): CODE = "******" ...

ТОП публикаций

8 ответов

Как определить веб-сканеры Google / Yahoo / MSN с помощью PHP?

НАСКОЛЬКО МНЕ ИЗВЕСТНО, $ _SERVER ['REMOTE_HOST'] должен заканчиваться на "google.com" или "yahoo.com". но это самый надежный метод? любой другой выход?

2 ответа

Эквивалент wget в Python для загрузки сайта и ресурсов

То же самое спросили 2,5 года назад вЗагрузка веб-страницы и всех ее файлов ресурсов в Python [https://stackoverflow.com/questions/844115/downloading-a-web-page-and-all-of-its-resource-files-in-python] но не приводит к ответу, и «пожалуйста, ...

1 ответ

Могу ли я выполнить scrapy (python) обход за пределами проекта dir?

Документы говорят, что я могу выполнить только команду crawl внутри директории проекта: scrapy crawl tutor -o items.json -t jsonно мне действительно нужно выполнить его в моем коде Python (файл Python не находится внутри директории текущего ...

5 ответов

Создание общего паука-скрапа

Мой вопрос на самом деле, как сделать то же самое, что и предыдущий вопрос, но в Scrapy 0.14. Использование одного паука Scrapy для нескольких сайтов [https://stackoverflow.com/questions/2396529/using-one-scrapy-spider-for-several-websites] По ...

4 ответа

База данных для веб-сканера в Python?

Привет, я пишу сканер в Python для извлечения новостных статей с новостных сайтов, таких как nytimes.com. Я хочу знать, что было бы хорошим БД для использования в качестве бэкэнда для этого проекта? Заранее спасибо!

2 ответа

Использование Nutch для сканирования указанного списка URL

У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орешка и использую основныеползатькоманда Nutch, чтобы получить их. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я ...

4 ответа

IFrame сканируется Google?

У меня есть iframe, который является источником, полученным из ответа сервлета, так будет ли сканироваться содержимое iframe?