Usando palavras Shingles e Stop com Elasticsearch e Lucene 4.4

Question

Dec 10, 2014, 09:31 PM

Usando palavras Shingles e Stop com Elasticsearch e Lucene 4.4

No índice que estou criando, estou interessado em executar uma consulta e depois (usando facetas) retornar as telhas dessa consulta. Aqui está o analisador que estou usando no texto:

{
  "settings": {
    "analysis": {
      "analyzer": {
        "shingleAnalyzer": {
          "tokenizer": "standard",
          "filter": [
            "standard",
            "lowercase",
            "custom_stop",
            "custom_shingle",
            "custom_stemmer"
          ]
        }
      },
      "filter": {
        "custom_stemmer" : {
            "type": "stemmer",
            "name": "english"
        },
        "custom_stop": {
            "type": "stop",
            "stopwords": "_english_"
        },
        "custom_shingle": {
            "type": "shingle",
            "min_shingle_size": "2",
            "max_shingle_size": "3"
        }
      }
    }
  }
}

O principal problema é que, com o Lucene 4.4, os filtros de parada não suportam mais oenable_position_increments parâmetro para eliminar telhas que contêm palavras de parada. Em vez disso, eu obteria resultados como ..

"vermelho e amarelo"

"terms": [
    {
        "term": "red",
        "count": 43
    },
    {
        "term": "red _",
        "count": 43
    },
    {
        "term": "red _ yellow",
        "count": 43
    },
    {
        "term": "_ yellow",
        "count": 42
    },
    {
        "term": "yellow",
        "count": 42
    }
]

Naturalmente, isso distorce o número de telhas retornadas. Existe uma maneira pós-Lucene 4.4 de gerenciar isso sem fazer pós-processamento nos resultados?