Entendiendo a Lucene como comodín

Question

Aug 01, 2012, 09:39 PM

Entendiendo a Lucene como comodín

Lucene no permite de forma predeterminada los caracteres comodín iniciales en los términos de búsqueda,pero esto puede ser habilitado con:

QueryParser#setAllowLeadingWildcard(true)

Entiendo que el uso de un comodín principal evita que Lucene use el índice. Las búsquedas con un comodín inicial deben escanear todo el índice.

¿Cómo demuestro el rendimiento de una consulta de comodín principal? Cuando está bien usarsetAllowLeadingWildcard(true)?

He construido un índice de prueba con 10 millones de documentos en la forma:

{ name: random_3_word_phrase }

El índice es 360M en el disco.

Mis consultas de prueba funcionan bien y no he podido demostrar realmente un problema de rendimiento. Por ejemplo, consultar porname:*ing Produce más de 1.1 millones de documentos en menos de 1 segundo. Preguntandoname:*ing* Produce más de 1,5 millones de documentos al mismo tiempo.

¿Qué está pasando aquí? ¿Por qué esto no es lento? ¿Es 10,000,000 documentos no es suficiente? ¿Los documentos necesitan contener más de un solo campo?