Apache Nutch para indexar apenas parte do conteúdo da página

Question

Jul 08, 2011, 10:34 PM

Apache Nutch para indexar apenas parte do conteúdo da página

Indo usarApache Nutch v1.3 para extrair apenas algum conteúdo específico das páginas da web. Verificado plug-in parse-html. Parece normalizar cada página html usando tagsoup ou nekohtml. Isso é bom. Preciso extrair apenas texto dentro de<span class='xxx'> e<span class='yyy'> elemetns na página da web. Seria ótimo se os textos extraídos fossem salvos em campos diferentes (por exemplo,content_xxx, content_yyy). Minha pergunta é: devo escrever meu próprio plugin ou isso pode ser feito de alguma maneira padrão?

A melhor maneira seria aplicar o XSLT na página da web normalizada e obter o resultado. Isso é possível

leaveComments