Результаты поиска по запросу "web-crawler"

3 ответа

Я бы не стал считать это сканером, поскольку он не компилирует последующие URI для сканирования. Он будет в основном загружать источник данного URL и вызывать обратный вызов по завершении. Потребитель должен определить логику для сканирования ссылок, представленных на этой странице, что не очень просто.

ли какой-нибудь фреймворк для JavaScript?

1 ответ

Хорошо использовать сканер внутри, чтобы получить список ссылок.

л фрагмент сценария, чтобы сканировать веб-сайт, поставить его на свой сервер, и он работает. Единственная проблема заключается в том, что если я пытаюсь ползти и устанавливаю глубину выше 4, это не работает. Мне интересно, если это ...

4 ответа

Я только что ответил на ваш вопрос. Вы спросили: «Есть ли алгоритм хеширования, который допускает незначительные различия?» и я сказал нет. Возможно, вы должны были спросить другую вещь.

имаюсь поиском некоторых типов контента в Интернете, где я ищу определенные термины на веб-страницах и нахожу их местоположение на странице, а затем кеширую их для дальнейшего использования. Я хотел бы иметь возможность периодически проверять ...

ТОП публикаций

9 ответов

Измените URL, чтобы сканировать больше сайтов ...... удачи

лкивался с вопросом на собеседовании «Если бы вы разрабатывали веб-сканер, как бы вы не попали в бесконечные циклы?», И я пытаюсь на него ответить. Как все это начинается с самого начала. Скажем, Google начал с некоторых хаб-страниц, скажем, ...

2 ответа

http://www.searchenginepeople.com/blog/how-to-track-clicks-on-anchors-in-google-analytics.html

пользуем информацию, которая находится после фрагмента хеша, для отображения разных страниц с использованием JavaScript, чтобы браузер не загружал всю страницу снова. Например, прямая ссылка на страницу может выглядеть следующим образом (book_id ...

2 ответа

Вы не можете использовать его в обоих направлениях: если сайт проверяет пользовательский агент для перенаправления на мобильный сайт, тогда ваш собственный не будет определяться как мобильный, но если вы затем измените его, то в основном все равно обойдете его.

ужно написать веб-сканер, и я хочу иметь возможность сканировать с помощью известного агента пользователя. Например, я хочу, чтобы мой сканер выполнял роль iphone для сканирования мобильного сайта веб-сайта, а затем снова сканировал с помощью ...

7 ответов

Разница между BeautifulSoup и Scrapy Crawler?

Я хочу сделать сайт, который показывает сравнение между Amazon и E-Bay цены продукта. Что из этого будет работать лучше и почему? Я немного знаком с BeautifulSoupно не так много сScrapy гусеничный.

1 ответ

Надеюсь, это поможет кому-нибудь когда-нибудь :)

у программу для веб-сканирования на python и не могу войти в систему с помощью mechanize. Форма на сайте выглядит так: <form method="post" action="PATLogon"> <h2 align="center"><img src="/myaladin/images/aladin_logo_rd.gif"></h2> <!-- ALADIN ...

2 ответа

Попробуйте также указать имя агента для http.robots.agents. Это сработало для меня. Я не получил это сообщение после этого !!!

Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property. at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1166) ...

3 ответа

Для правильного и полного использования JavaScript вам нужен полноценный браузерный движок, и это возможно только с Watir / WatiN / Selenium и т. Д.

ользую Scrapy для сканирования веб-страницы. Некоторая информация, которая мне нужна, появляется только при нажатии на определенную кнопку (конечно, она также появляется в HTML-коде после нажатия). Я обнаружил, что Scrapy может обрабатывать ...