http://www.atlantbh.com/precise-data-extraction-with-apache-nutch/

аюсь использоватьApache Nutch v1.3 извлечь только некоторый конкретный контент из веб-страниц. Проверен плагин html parse. Кажется, это нормализует каждую html-страницу, используя tagsoup или nekohtml. Это хорошо. Мне нужно извлечь только текст внутри<span class='xxx'> а также<span class='yyy'> elemetns на веб-странице. Было бы здорово, если извлеченные тексты сохраняются в разных полях (например,content_xxx, content_yyy). Мой вопрос: я должен написать свой собственный плагин, или это можно сделать стандартным способом?

Лучшим способом было бы применить XSLT на нормализованной веб-странице и получить результат. Это возможно?

Ответы на вопрос(3)

Ваш ответ на вопрос