Búsqueda de documentos almacenados en Hadoop: ¿qué herramienta usar?

Estoy perdido en: Hadoop, Hbase, Lucene, Carrot2, Cloudera, Tika, ZooKeeper, Solr, Katta, Cascading, POI ...

Cuando lea sobre uno, a menudo puede estar seguro de que cada una de las otras herramientas será mencionada.

No espero que me expliques todas las herramientas, claro que no. Si pudieras ayudarme a reducir este conjunto para mi escenario particular sería genial. Hasta ahora no estoy seguro de cuál de las opciones anteriores encajará y parece que (como siempre) hay más de una forma de hacer lo que se debe hacer.

El escenario es: 500 GB - ~ 20 TB de documentos almacenados en Hadoop. Documentos de texto en múltiples formatos: email, doc, pdf, odt. Los metadatos sobre los documentos almacenados en la base de datos de SQL (remitente, destinatarios, fecha, departamento, etc.) La fuente principal de los documentos será ExchangeServer (correos electrónicos y archivos adjuntos), pero no solo. Ahora a la búsqueda: el usuario debe poder realizar búsquedas complejas de texto completo sobre esos documentos. Básicamente, se le presentará un panel de configuración de búsqueda (aplicación de escritorio java, no webapp): establecerá el rango de fechas, tipos de documentos, remitentes / destinatarios, palabras clave, etc. - iniciará la búsqueda y obtendrá la lista resultante de los documentos (y para cada información del documento, por qué se incluye en los resultados de búsqueda, es decir, qué palabras clave se encuentran en el documento).

¿Qué herramientas debo tener en cuenta y cuáles no? El punto es desarrollar dicha solución con un mínimo "código de pegamento" requerido. Soy competente en SQLdbs pero bastante incómodo con las tecnologías relacionadas con Apache y.

El flujo de trabajo básico se ve así: ExchangeServer / otra fuente -> conversión desde doc / pdf / ... -> deduplicación -> Hadopp + SQL (metadatos) -> construir / actualizar un índice <- buscar a través de los documentos (y hacerlo rápido ) -> Resultados de búsqueda actuales

¡Gracias!

Respuestas a la pregunta(5)

Su respuesta a la pregunta