Какой веб-сканер для извлечения и анализа данных примерно с тысячи веб-сайтов

Question

Oct 31, 2009, 09:11 AM

Какой веб-сканер для извлечения и анализа данных примерно с тысячи веб-сайтов

Я пытаюсь сканировать около тысячи веб-сайтов, из которых меня интересует только HTML-контент.

Затем я преобразовываю HTML в XML для анализа с помощью Xpath, чтобы извлечь конкретный интересующий меня контент.

Я использовал сканер Heritrix 2.0 в течение нескольких месяцев, но столкнулся с огромными проблемами с производительностью, памятью и стабильностью (Heritrix вылетает каждый день, и попытки с параметрами JVM ограничить использование памяти не увенчались успехом).

Исходя из вашего опыта в этой области, какой сканер вы бы использовали для извлечения и анализа контента из тысячи источников?

Какой веб-сканер для извлечения и анализа данных примерно с тысячи веб-сайтов

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Какой веб-сканер для извлечения и анализа данных примерно с тысячи веб-сайтов

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы