Как разобрать HTML с Nutch и индексировать определенный тег для Solr?
Я установил Nutch и Solr для сканирования веб-сайта и поиска по нему; как вы знаете, мы можем индексировать метатеги веб-страниц в solr с помощью плагина разбора мета-тегов Nutch. (http://wiki.apache.org/nutch/IndexMetatags) теперь я хочу знать, есть ли способ отсканировать еще один HTML-тег в Solr это не мета (плагин или в любом случае), как это:
<div id=something>
me specific tag
</div>
действительно, я хочу добавить поле для solr (что-то), которое имеет значение «me me tag» на этой странице.
любая идея?