Remover menus do html durante o rastreamento ou indexação com nutch e solr
Estou rastreando nosso (s) site (s) grande (s) com nutch e depois indexando com solr e os resultados são muito bons. No entanto, existem várias estruturas de menu no site que indexam e estragam os resultados de uma consult
Cada um desses menus está claramente definido em um DIV, então<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>
e vários outros.
Preciso, em algum momento, excluir o conteúdo desses DIV
Estou supondo que o lugar certo seja durante a indexação por solr, mas não sei com
Um padrão seria algo como(<div id="calendar">).*?(<\/div>)
mas não consigo fazer isso funcionar em<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" />
e não tenho muita certeza de onde colocá-lo no schema.xm
Quando coloco esse padrão no schema.xml, ele não analis