Solr: Использование фрагментатора Regex для извлечения абзацев

Я отправил это сообщение в список рассылки Solr, но я пытаюсь и здесь, на случай, если вокруг будет скрываться эксперт Solr.

Я пытаюсь использовать фрагментатор регулярных выражений, и мне трудно получить желаемые результаты. Я пытаюсь получить фрагменты, которые начинаются с символа слова и заканчиваются пунктуацией, но по какой-то причине возвращаемые мне фрагменты кажутся очень негибкими, несмотря на то, что я обеспечил большой провал. Вот соответствующие параметры, которые я использую, может быть, кто-то может помочь указать, где я ошибся:

<str name="hl.fragsize">500</str>
<str name="hl.fragmenter">regex</str>
<str name="hl.regex.slop">0.8</str>
<str name="hl.regex.pattern">[\w].*{400,600}[.!?]</str>
<str name="hl">true</str>
<str name="q">chinese</str>

Это должно соответствовать 400-600 символов, начиная с символа слова и заканчивая одним из.!?. Вот пример типичного результата:

, Проверьте эти картинки. В четверг на юго-западе Китая впервые демонстрируются девять панды. Им меньше года. Они совсем недавно перестали кормить грудью. В горных лесах центрального Китая осталось только 1600 человек, еще 120 - в китайских питомниках и зоопарках. А им около 20, которые живут за пределами Китая в зоопарках. Они существуют почти полностью на бамбуке. Они могут дожить до 30 лет. И эти маленькие ребята со временем станут намного больше. Они будут расти

Как видите, он начинается с точки и заканчивается на слове символа! Это почти так, как будто фрагменты просто выходят, как они будут, и регулярное выражение вообще ничего не делает, но результаты меняются, когда я использую фрагментатор разрыва. В приведенном выше результате я не вижу никакой причины, по которой он не должен был бы удалить предыдущий период и последние два слова, в пробеле и в регулярном выражении достаточно места. Пожалуйста, помогите мне понять, что я делаю не так ...

Большое спасибо,

отметка

Ответы на вопрос(3)

Ваш ответ на вопрос