Solr: uso del fragmentador Regex para extraer párrafos

Publiqué este mensaje en la lista de correo de Solr, pero también lo estoy intentando aquí en caso de que haya un experto en Solr al acecho.

Estoy tratando de usar el fragmentador de expresiones regulares y estoy teniendo dificultades para obtener los resultados que quiero. Estoy tratando de obtener fragmentos que comiencen con un carácter de palabra y terminen con puntuación, pero por alguna razón los fragmentos que me devuelven parecen ser muy inflexibles, a pesar de que he proporcionado una gran pendiente. Estos son los parámetros relevantes que estoy usando, tal vez alguien pueda ayudarme a señalar dónde me he equivocado:

<str name="hl.fragsize">500</str>
<str name="hl.fragmenter">regex</str>
<str name="hl.regex.slop">0.8</str>
<str name="hl.regex.pattern">[\w].*{400,600}[.!?]</str>
<str name="hl">true</str>
<str name="q">chinese</str>

Esto debería coincidir entre 400-600 caracteres, comenzando con un carácter de palabra y terminando con uno de.!?. Aquí hay un ejemplo de un resultado típico:

. Mira estas fotos. Nueve cachorros de panda en exhibición por primera vez el jueves en el suroeste de China. Tienen menos de un año. Recientemente dejaron de amamantar. Solo quedan 1.600 de estos tipos en los bosques montañosos del centro de China, otros 120 en instalaciones de cría y zoológicos chinos. Y son unos 20 que viven fuera de China en zoológicos. Existen casi por completo en bambú. Pueden vivir hasta los 30 años. Y estos pequeños individuos eventualmente crecerán mucho más. Crecerán

Como puede ver, ¡comienza con un punto y termina con un carácter de palabra! Es casi como si los fragmentos salieran como deberían y la expresión regular no está haciendo nada en absoluto, pero los resultados son diferentes cuando uso el fragmentador de huecos. En el resultado anterior, no veo ninguna razón por la que no debería haber eliminado el período anterior y las últimas dos palabras, hay mucho espacio en la pendiente y en el patrón de expresiones regulares. Por favor, ayúdame a descubrir qué estoy haciendo mal ...

Muchas gracias,

marca

Respuestas a la pregunta(3)

Su respuesta a la pregunta