Какой веб-сканер для извлечения и анализа данных примерно с тысячи веб-сайтов
Я пытаюсь сканировать около тысячи веб-сайтов, из которых меня интересует только HTML-контент.
Затем я преобразовываю HTML в XML для анализа с помощью Xpath, чтобы извлечь конкретный интересующий меня контент.
Я использовал сканер Heritrix 2.0 в течение нескольких месяцев, но столкнулся с огромными проблемами с производительностью, памятью и стабильностью (Heritrix вылетает каждый день, и попытки с параметрами JVM ограничить использование памяти не увенчались успехом).
Исходя из вашего опыта в этой области, какой сканер вы бы использовали для извлечения и анализа контента из тысячи источников?