Результаты поиска по запросу "web-crawler"

1 ответ

 API.

давнего времени существовало несколько способов извлечения пользовательских мультимедиа из Instagram без необходимости аутентификации API. Но, видимо, сайт остановил их всех. Несколько ...

1 ответ

Я использую HTTrack уже несколько лет. Он прекрасно обрабатывает все межстраничные ссылки и т. Д. Моя единственная жалоба заключается в том, что я не нашел хорошего способа ограничить доступ к этому сайту. Например, если есть сайт www.foo.com/steve, который я хочу заархивировать, он, вероятно, будет переходить по ссылкам на www.foo.com/rowe и архивировать его тоже. В противном случае это здорово. Сильно настраиваемый и надежный.

мом деле мы много раз сжигали статические / архивные копии наших сайтов asp.net для клиентов. Мы использовалиWebZip [http://www.spidersoft.com/]до сих пор, но у нас были бесконечные проблемы со сбоями, неправильно загруженными страницами и т. ...

1 ответ

Мне кажется, что лучший способ обнаружить бота - это время между запросами, если время между запросами постоянно быстрое, то это бот.

ел бы определить (на стороне сервера), какие запросы от ботов. На данный момент меня не волнуют злобные боты, только те, которые хорошо играют. Я видел несколько подходов, которые в основном включают сопоставление строки пользовательского агента ...

ТОП публикаций

1 ответ

Хорошо использовать сканер внутри, чтобы получить список ссылок.

л фрагмент сценария, чтобы сканировать веб-сайт, поставить его на свой сервер, и он работает. Единственная проблема заключается в том, что если я пытаюсь ползти и устанавливаю глубину выше 4, это не работает. Мне интересно, если это ...

1 ответ

Надеюсь, это поможет кому-нибудь когда-нибудь :)

у программу для веб-сканирования на python и не могу войти в систему с помощью mechanize. Форма на сайте выглядит так: <form method="post" action="PATLogon"> <h2 align="center"><img src="/myaladin/images/aladin_logo_rd.gif"></h2> <!-- ALADIN ...

1 ответ

Для чего нужен шебанг / хэшбанг?

Существуют ли другие способы использования шебангов / хэшбэнгов, кроме того, чтобы сделать содержимое AJAX доступным для Google? Или это все?

1 ответ

Ошибки относительно Web Crawler в PHP

Я пытаюсь создать простой веб-сканер, использующий PHP, который способен сканировать домены .edu, при условии, что исходные URL родительского. Я использовал простой html dom для реализации сканера, в то время как некоторая основная логика ...

1 ответ

Могу ли я выполнить scrapy (python) обход за пределами проекта dir?

Документы говорят, что я могу выполнить только команду crawl внутри директории проекта: scrapy crawl tutor -o items.json -t jsonно мне действительно нужно выполнить его в моем коде Python (файл Python не находится внутри директории текущего ...

1 ответ

Создание бота / сканера

Я хотел бы сделать небольшого бота, чтобы автоматически и периодически просматривать веб-сайты нескольких партнеров. Это сэкономило бы несколько часов многим сотрудникам здесь. Бот должен уметь: подключиться к этому сайту, на некоторых из них ...

1 ответ

Как создать правила для сканера ползунков с помощью scrapy

from scrapy.spider import BaseSpider from scrapy.selector import HtmlXPathSelector from manga.items import MangaItem class MangaHere(BaseSpider): name = "mangah" allowed_domains = ["mangahere.com"] start_urls ...