Eliminación del menú de html durante el rastreo o indexación con nutch y solr

Estoy rastreando nuestro (s) sitio (s) web grande (s) con nutch y luego indexando con solr y los resultados son bastante buenos. Sin embargo, hay varias estructuras de menú en todo el sitio que indexan y estropean los resultados de una consulta.

Cada uno de estos menús está claramente definido en un DIV así que<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div> y varios otros.

Necesito, en algún momento, eliminar el contenido de estos DIVS.

Supongo que el lugar correcto es durante la indexación por solr, pero no puedo entender cómo.

Un patrón se parecería a(<div id="calendar">).*?(<\/div>) pero no puedo lograr que funcione en<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" /> y no estoy seguro de dónde colocarlo en schema.xml.

Cuando coloco ese patrón en schema.xml no se analiza.

Respuestas a la pregunta(4)

Su respuesta a la pregunta