como analisar html com nutch e indexar tag específica para solr?
Eu instalei nutch e solr para rastrear um site e pesquisá-lo; como você sabe, podemos indexar metatags de páginas da Web em solr com o plugin de metatags parse de nutch. (http://wiki.apache.org/nutch/IndexMetatags) agora eu quero saber se existe alguma maneira de rastrear outra tag html para solr que não é meta? (plugin ou assim mesmo) assim:
<div id=something>
me specific tag
</div>
de fato, eu quero adicionar um campo ao solr (algo) que tenha valor de "eu tag específica" nesta página.
qualquer ideia?