Lucene.Net Sublinhados causando a divisão de tokens
Eu criei um script para tabelas, visualizações e procedimentos armazenados de bancos de dados MsSqlServer em uma estrutura de diretórios que depois indexo com o Lucene.net. A maioria dos meus nomes de tabela, exibição e procedimento contém sublinhados.
Eu uso o StandardAnalyzer. Se eu consultar uma tabela chamada tIr_InvoiceBtnWtn01, por exemplo, recebo hits de volta para tIr e InvoiceBtnWtn01, em vez de apenas para tIr_InvoiceBtnWtn01.
Eu acho que o problema é que o tokenizer está se dividindo em _ (sublinhado), pois é pontuação.
Existe uma maneira (simples) de remover sublinhados da lista de pontuação ou existe outro analisador que eu deveria estar usando para sql e linguagens de programação?