Remover menus do html durante o rastreamento ou indexação com nutch e solr

Estou rastreando nosso (s) site (s) grande (s) com nutch e depois indexando com solr e os resultados são muito bons. No entanto, existem várias estruturas de menu no site que indexam e estragam os resultados de uma consult

Cada um desses menus está claramente definido em um DIV, então<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div> e vários outros.

Preciso, em algum momento, excluir o conteúdo desses DIV

Estou supondo que o lugar certo seja durante a indexação por solr, mas não sei com

Um padrão seria algo como(<div id="calendar">).*?(<\/div>) mas não consigo fazer isso funcionar em<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" /> e não tenho muita certeza de onde colocá-lo no schema.xm

Quando coloco esse padrão no schema.xml, ele não analis

questionAnswers(4)

yourAnswerToTheQuestion