Какой веб-сканер для извлечения и анализа данных примерно с тысячи веб-сайтов

я пытаюсь сканировать около тысячи веб-сайтов, с которых яЯ заинтересован только в содержании HTML.

Затем я преобразовываю HTML в XML для анализа с помощью Xpath для извлечения конкретного содержимого, которое я 'меня интересует.

Я использовал сканер Heritrix 2.0 в течение нескольких месяцев, но я столкнулся с огромными проблемами с производительностью, памятью и стабильностью (Heritrix вылетает каждый день, и попытки с параметрами JVM ограничить использование памяти не увенчались успехом).

Исходя из вашего опыта в этой области, какой сканер вы бы использовали для извлечения и анализа контента из тысячи источников?

Ответы на вопрос(3)

Ваш ответ на вопрос