Apache Nutch para indexar apenas parte do conteúdo da página
Indo usarApache Nutch v1.3
para extrair apenas algum conteúdo específico das páginas da web. Verificado plug-in parse-html. Parece normalizar cada página html usando tagsoup ou nekohtml. Isso é bom. Preciso extrair apenas texto dentro de<span class='xxx'>
e<span class='yyy'>
elemetns na página da web. Seria ótimo se os textos extraídos fossem salvos em campos diferentes (por exemplo,content_xxx
, content_yyy
). Minha pergunta é: devo escrever meu próprio plugin ou isso pode ser feito de alguma maneira padrão?
A melhor maneira seria aplicar o XSLT na página da web normalizada e obter o resultado. Isso é possível