Jak mieć tokenizer ngram w lucene 4.0?

Question

Jul 01, 2013, 04:55 PM

Jak mieć tokenizer ngram w lucene 4.0?

Pracuję nad indeksowaniem dużego pliku tekstowego tekstem bez spacji. Obecnie mam metodę ngram do wygenerowania ciągu o długości 12, a następnie je indeksuję. Taki sam sposób wyszukiwania, otrzymuję ciąg od użytkownika generujący ngrams 12, a następnie używam go w budowaniu zapytania. Podczas wyszukiwania przeczytaj o tokenizerze ngram występującym w lucene. Ale nie mogłem znaleźć wielu przykładów.

Jak zaimplementować ngram tokenizer w lucene 4.0?