Это не совсем так. Solr анализирует объекты Lucene Document, которые создает Nutch. Часть данных - это необработанный HTML, но есть и другие свойства, такие как title и contentType, которые связаны с Solr. Солр не разбирает это.

нирую наш большой веб-сайт (ы) с помощью Nutch, а затем индексирую с помощью Solr, и результаты довольно хорошие. Однако на сайте есть несколько структур меню, которые индексируют и портят результаты запроса.

Каждое из этих меню четко определено в DIV, поэтому<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div> и несколько других.

Мне нужно, в какой-то момент, удалить содержимое этих DIVS.

Я предполагаю, что правильное место во время индексации по Solr, но не могу понять, как.

Шаблон будет выглядеть примерно так(<div id="calendar">).*?(<\/div>) но я не могу заставить это работать<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" /> и я не совсем уверен, где положить его в schema.xml.

Когда я помещаю этот шаблон в schema.xml, он не анализируется.

Ответы на вопрос(4)

Ваш ответ на вопрос