Результаты поиска по запросу "web-crawler"
Ошибки относительно Web Crawler в PHP
Я пытаюсь создать простой веб-сканер, использующий PHP, который способен сканировать домены .edu, при условии, что исходные URL родительского. Я использовал простой html dom для реализации сканера, в то время как некоторая основная логика ...
Как игнорировать типы файлов в веб-сканере?
Я пишу сканер и хочу игнорировать URL-адреса, которые ссылаются на двоичные файлы: $exclude = %w(flv swf png jpg gif asx zip rar tar 7z gz jar js css dtd xsd ico raw mp3 mp4 wav wmv ape aac ac3 wma aiff mpg mpeg avi mov ogg mkv mka asx asf mp2 ...
Как создать сканер Python для сайтов, использующих oauth2
Я новичок в веб-программировании. Я хочу создать сканер для сканирования социального графа в Foursquare от Python. У меня есть «вручную» управляемый гусеничный ход с помощьюapiv2 библиотека. Основной метод похож на: def main(): CODE = "******" ...
Как определить веб-сканеры Google / Yahoo / MSN с помощью PHP?
НАСКОЛЬКО МНЕ ИЗВЕСТНО, $ _SERVER ['REMOTE_HOST'] должен заканчиваться на "google.com" или "yahoo.com". но это самый надежный метод? любой другой выход?
Эквивалент wget в Python для загрузки сайта и ресурсов
То же самое спросили 2,5 года назад вЗагрузка веб-страницы и всех ее файлов ресурсов в Python [https://stackoverflow.com/questions/844115/downloading-a-web-page-and-all-of-its-resource-files-in-python] но не приводит к ответу, и «пожалуйста, ...
Могу ли я выполнить scrapy (python) обход за пределами проекта dir?
Документы говорят, что я могу выполнить только команду crawl внутри директории проекта: scrapy crawl tutor -o items.json -t jsonно мне действительно нужно выполнить его в моем коде Python (файл Python не находится внутри директории текущего ...
Создание общего паука-скрапа
Мой вопрос на самом деле, как сделать то же самое, что и предыдущий вопрос, но в Scrapy 0.14. Использование одного паука Scrapy для нескольких сайтов [https://stackoverflow.com/questions/2396529/using-one-scrapy-spider-for-several-websites] По ...
База данных для веб-сканера в Python?
Привет, я пишу сканер в Python для извлечения новостных статей с новостных сайтов, таких как nytimes.com. Я хочу знать, что было бы хорошим БД для использования в качестве бэкэнда для этого проекта? Заранее спасибо!
Использование Nutch для сканирования указанного списка URL
У меня есть один миллион URL-адресов для получения. Я использую этот список как семена орешка и использую основныеползатькоманда Nutch, чтобы получить их. Тем не менее, я считаю, что Nutch автоматически выбирает URL, которых нет в списке. Я ...
IFrame сканируется Google?
У меня есть iframe, который является источником, полученным из ответа сервлета, так будет ли сканироваться содержимое iframe?