¿El resaltado de Solr también puede indicar la posición o el desplazamiento de los fragmentos devueltos dentro del campo original?

Fondo

Utilizando Solr 4.0.0. He indexado el texto de un conjunto de documentos de muestra y habilitado Vectores de vectores para poder usar el resaltado rápido de vectores

<field name="raw_text" type="text_en" indexed="true" stored="true" termVectors="true" termPositions="true" termOffsets="true" />

Para resaltar, estoy usando el Escáner de límites de iterador de ruptura con límites de SENTENCIA.

<boundaryScanner name="breakIterator" class="solr.highlight.BreakIteratorBoundaryScanner">
    <lst name="defaults">
      <!-- type should be one of CHARACTER, WORD(default), LINE and SENTENCE -->
      <str name="hl.bs.type">SENTENCE</str>
    </lst>
  </boundaryScanner>

Hago una consulta sencilla

http://localhost:8983/solr/documents/select?q=raw_text%3AArtibonite&wt=xml&hl=true&hl.fl=raw_text&hl.useFastVectorHighlighter=true&hl.snippets=100&hl.boundaryScanner=breakIterator

Resaltar funciona bastante bien

<response>
...
<result name="response" numFound="5" start="0">
<doc>
  <str name="id">-1071691270</str>
  <str name="raw_text">
     Final Report of the Independent Panel of Experts on the Cholera
     Outbreak in Haiti Dr. Alejando Cravioto (Chair) International
     Center for Diarrhoeal Disease Research, Dhaka, Bangladesh Dr.
     Claudio F. Lanata Instituto de Investigación Nutricional, and
     The US Navy Medical Research Unit 6, Lima, Peru Engr. Daniele
     S. Lantagne Harvard University... ~SNIP~
  </str>
<doc>
<lst name="highlighting">
  <lst name="-1071691270">
    <arr name="raw_text">
      ...
      <str>
        The timeline suggests that the outbreak spread along
        the <em>Artibonite</em> River. After establishing that
        the cases began in the upper reaches of the Artibonite
        River, potential sources of contamination that could have
        initiated the outbreak were investigated.
      </str>
      ...
    </arr>
  </lst>
</lst>

Problema

Quiero poder enviar las oraciones resultantes para un procesamiento posterior (extracción de entidad, etc.) pero me gustaría hacer un seguimiento de las compensaciones de inicio / finalización de la oración resaltada dentro del campo de texto original (largo).¿Hay una manera sencilla de hacer esto?

¿Sería mejor configurar hl.fragsize para devolver todo el campo y luego procesar / extraer las oraciones de interés de esta manera?

Respuestas a la pregunta(1)

Su respuesta a la pregunta