¿Cómo tener ngram tokenizer en lucene 4.0?

Question

Jul 01, 2013, 04:55 PM

¿Cómo tener ngram tokenizer en lucene 4.0?

Estoy trabajando en indexar archivos de texto grandes con texto sin espacios. Actualmente tengo el método ngram para generar una cadena de longitud 12 y luego los indexo. De la misma manera que la búsqueda, obtengo la cadena del usuario para generar ngrams de 12 y luego la uso en la construcción de la consulta. En la búsqueda, lea acerca de ngram tokenizer presente en lucene. Pero no pude encontrar muchos ejemplos.

¿Cómo implementar ngram tokenizer en lucene 4.0?