Comportamiento curioso de fragment_size en elasticsearch resaltado

TL; DR: No entiendo cómo funciona el resaltado, y más precisamente cómofragment_size Influye en el resaltado.

En una nueva instalación de ES (1.4.2), estoy creando un índice con la siguiente configuración:

{
    "mappings" : {
        "test": {
            "properties": {
                "content" : {
                    "type" : "string",
                    "analyzer" : "french"
                }
            }
        }
    }
}

Luego, estoy insertando el siguiente documento:

{
    "content": "Bon alors mettons que j'ouvre avec un sirop de huit. Si c'est vous qui avez siroté au tour d'avant, ça tourne dans votre sens. Soit vous laissez filer, vous dites file-sirop, soit vous vous sentez de relancer et vous annoncez un sirop de quatorze. Vous, comme on a commencé les annonces, vous avez pas le droit de laisser filer. Vous pouvez soit relancer un sirop de vingt-et-un, soit vous abandonnez le tour et vous dites couche-sirop. Ou sirop Jeannot, ça dépend des régions. Et après, soit on fait la partie soit je fais un contre-sirop, boum ! Et à partir de là, sirop de pomme sur vingt-et-un donc on fait la partie en quatre tours jusqu'à qu'il y en ait un qui sirote."
}

Finalmente, estoy consultando "couche-sirop" y resaltando el resultado, con diferentes valores de N (fragment_size):

{
    "query": {
        "query_string": {
            "query": "\"couche-sirop\"",
            "fields": [
                "content"
            ],
            "default_operator": "and"
        }
    },
    "highlight": {
        "number_of_fragments": 5,
        "type": "plain",
        "fields": {
            "content": {
                "fragment_size": N
            }
        }
    }
}

Algunos resultados:

N = 15:[' <em>couche</em>', '-<em>sirop</em>. Ou sirop']N = 16:[' et vous dites <em>couche</em>', '-<em>sirop</em>. Ou sirop']N = 17:[' <em>couche</em>-<em>sirop</em>']N = 18:[' et vous dites <em>couche</em>', '-<em>sirop</em>. Ou sirop']N = 19:[' et vous dites <em>couche</em>-<em>sirop</em>']

Con mayores valores de N

N = 70:[' et vous dites <em>couche</em>-<em>sirop</em>. Ou sirop Jeannot, ça dépend des régions. Et après']N = 71:[' <em>couche</em>-<em>sirop</em>. Ou sirop Jeannot, ça dépend des régions. Et après']N = 72:[' un sirop de vingt-et-un, soit vous abandonnez le tour et vous dites <em>couche</em>', '-<em>sirop</em>. Ou sirop Jeannot, ça dépend des régions. Et après, soit on fait']N = 73:[' de vingt-et-un, soit vous abandonnez le tour et vous dites <em>couche</em>-<em>sirop</em>']

¿Alguien puede explicar por qué:

Con mayores valores de N, esperamos tener más contexto, pero a veces tenemos menos.Dependiendo del valor de N, a veces tenemos un fragmento, a veces dos

También probé elpostings y elfast vector marcadores con los mismos resultados

Gracias !

Respuestas a la pregunta(1)

Su respuesta a la pregunta