Это не совсем так. Solr анализирует объекты Lucene Document, которые создает Nutch. Часть данных - это необработанный HTML, но есть и другие свойства, такие как title и contentType, которые связаны с Solr. Солр не разбирает это.
нирую наш большой веб-сайт (ы) с помощью Nutch, а затем индексирую с помощью Solr, и результаты довольно хорошие. Однако на сайте есть несколько структур меню, которые индексируют и портят результаты запроса.
Каждое из этих меню четко определено в DIV, поэтому<div id="RHBOX"> ... </div> or <div id="calendar"> ...</div>
и несколько других.
Мне нужно, в какой-то момент, удалить содержимое этих DIVS.
Я предполагаю, что правильное место во время индексации по Solr, но не могу понять, как.
Шаблон будет выглядеть примерно так(<div id="calendar">).*?(<\/div>)
но я не могу заставить это работать<tokenizer class="solr.PatternTokenizerFactory" pattern="(<div id="calendar">).*?(<\/div>)" />
и я не совсем уверен, где положить его в schema.xml.
Когда я помещаю этот шаблон в schema.xml, он не анализируется.