Como ter um tokenizer ngram no lucene 4.0?

Question

Jul 01, 2013, 04:55 PM

Como ter um tokenizer ngram no lucene 4.0?

Eu estou trabalhando na indexação de arquivo de texto grande com texto sem espaços. Atualmente eu tenho o método ngram para gerar uma string de comprimento 12 e depois eu indexo-os. Mesma maneira de pesquisar, eu recebo a string do usuário gerar ngrams de 12 e, em seguida, usá-lo na construção da consulta. Na pesquisa, leia sobre o tokenizer do ngram presente no lucene. Mas não encontrei muitos exemplos.

Como implementar o tokenizer ngram no lucene 4.0?