Uso de herpes zóster y palabras de detención con Elasticsearch y Lucene 4.4

Question

Dec 10, 2014, 09:31 PM

Uso de herpes zóster y palabras de detención con Elasticsearch y Lucene 4.4

En el índice que estoy construyendo, estoy interesado en ejecutar una consulta y luego (usando facetas) devolver las tejas de esa consulta. Aquí está el analizador que estoy usando en el texto:

{
  "settings": {
    "analysis": {
      "analyzer": {
        "shingleAnalyzer": {
          "tokenizer": "standard",
          "filter": [
            "standard",
            "lowercase",
            "custom_stop",
            "custom_shingle",
            "custom_stemmer"
          ]
        }
      },
      "filter": {
        "custom_stemmer" : {
            "type": "stemmer",
            "name": "english"
        },
        "custom_stop": {
            "type": "stop",
            "stopwords": "_english_"
        },
        "custom_shingle": {
            "type": "shingle",
            "min_shingle_size": "2",
            "max_shingle_size": "3"
        }
      }
    }
  }
}

El problema principal es que, con Lucene 4.4, los filtros de detención ya no admitenenable_position_increments parámetro para eliminar las tejas que contienen palabras de detención. En cambio, obtendría resultados como ...

"rojo y amarillo"

"terms": [
    {
        "term": "red",
        "count": 43
    },
    {
        "term": "red _",
        "count": 43
    },
    {
        "term": "red _ yellow",
        "count": 43
    },
    {
        "term": "_ yellow",
        "count": 42
    },
    {
        "term": "yellow",
        "count": 42
    }
]

Naturalmente, esto sesga GRANDEMENTE el número de tejas devueltas. ¿Existe alguna forma posterior a Lucene 4.4 para gestionar esto sin realizar un procesamiento posterior de los resultados?