Результаты поиска по запросу "web-crawler"

2 ответа

Хорошо, так что, возможно, не для учебника.

му я следую учебному пособию по Storm-Crawler-ElasticSearch и играю с ним. Когда Kibana используется для поиска, я заметил, что количество обращений к имени индекса «status» намного больше, чем «index». Пример: [/imgs/bLO3w.png] В левом ...

1 ответ

 API.

давнего времени существовало несколько способов извлечения пользовательских мультимедиа из Instagram без необходимости аутентификации API. Но, видимо, сайт остановил их всех. Несколько ...

5 ответов

@ The Tin Man: Вот почему я спросил. :)

аюсь написать свою собственную, но мне интересно, есть ли какие-нибудь хорошие веб-сканеры, написанные на Ruby. Если не считать полноценного веб-сканера, любые гемы, которые могут быть полезны при создании веб-сканера, были бы полезны. Я знаю, ...

ТОП публикаций

8 ответов

Сканеры Google интерпретируют Javascript? Что делать, если я загружаю страницу через AJAX? [закрыто]

Когда пользователь заходит на мою страницу, я должен сделать еще один вызов AJAX ... чтобы загрузить данные в div. Вот так работает мое приложение. Проблема в том, что ... когда я просматриваю источник этого кода, он не содержит источник этого ...

2 ответа

Извлечь содержимое (загруженное через вызов AJAX) веб-страницы

Я новичок в ползании. У меня есть требование получать сообщения и комментарии по ссылке. Я хочу автоматизировать этот процесс. Я подумал об использовании webcrawler и jsoup для этого, но мне сказали, что webcrawlers в основном используются для ...

1 ответ

Найти текст внутри тега JavaScript с помощью PHP Simple HTML DOM Parser

Я пытаюсь найти текст изменения регулярно внутри тега JavaScript: <script type="text/javascript"> jwplayer("mediaplayer").setup({ flashplayer: "player.swf", file:"filename", provider: ...

1 ответ

Веб-сайты, которые особенно трудно сканировать и сканировать? [закрыто]

Я заинтересован в общедоступных сайтах (ничего за логином / аутентификацией), которые имеют такие вещи: Высокое использование внутренних 301 и 302 редиректовПротивоскребающие меры (но не запрещающие сканеры через robots.txt)Несемантическая или ...

5 ответов

Как сканировать Facebook на основе информации о дружбе?

Я аспирант, чьи исследования сложная сеть. Я работаю над проектом, который включает анализ связей между пользователями Facebook. Можно ли написать сканер для Facebook на основе информации о дружбе? Я огляделся, но пока не нашел ничего полезного. ...

1 ответ

Я использую HTTrack уже несколько лет. Он прекрасно обрабатывает все межстраничные ссылки и т. Д. Моя единственная жалоба заключается в том, что я не нашел хорошего способа ограничить доступ к этому сайту. Например, если есть сайт www.foo.com/steve, который я хочу заархивировать, он, вероятно, будет переходить по ссылкам на www.foo.com/rowe и архивировать его тоже. В противном случае это здорово. Сильно настраиваемый и надежный.

мом деле мы много раз сжигали статические / архивные копии наших сайтов asp.net для клиентов. Мы использовалиWebZip [http://www.spidersoft.com/]до сих пор, но у нас были бесконечные проблемы со сбоями, неправильно загруженными страницами и т. ...

1 ответ

Мне кажется, что лучший способ обнаружить бота - это время между запросами, если время между запросами постоянно быстрое, то это бот.

ел бы определить (на стороне сервера), какие запросы от ботов. На данный момент меня не волнуют злобные боты, только те, которые хорошо играют. Я видел несколько подходов, которые в основном включают сопоставление строки пользовательского агента ...