Bitcask, ¿está bien para un almacén de archivos simple y de alto rendimiento?

Busco una forma sencilla de almacenar y recuperar millones de archivos xml. Actualmente todo se hace en un sistema de archivos, que tiene algunos problemas de rendimiento.

Nuestros requisitos son:

Capacidad para almacenar millones de archivos xml en un proceso por lotes. Los archivos XML pueden tener un tamaño de hasta unos pocos megas, la mayoría en el rango de 100 KB.Búsqueda aleatoria muy rápida por ID (por ejemplo, URL del documento) Accesible tanto por Java como por PerlDisponible en las más importantes Linux-Distros y Windows

He echado un vistazo a varias plataformas NoSQL (por ejemplo, CouchDB, Riak y otros), y aunque esos sistemas se ven geniales, parecen casi como una exageración:

No se requiere agrupación No se requiere demonio ("servicio")No se requiere funcionalidad de búsqueda inteligente

l profundizar en Riak, he encontrado Bitcask (ver introducción), que parece exactamente lo que quiero. Los conceptos básicos descritos en la introducción son realmente intrigantes. Pero desafortunadamente no hay forma de acceder a un repositorio de bitcask a través de java (¿o existe?)

Así que mi pregunta se reduce a

es la siguiente suposición correcta: el modelo de Bitcask (escrituras de solo agregar, administración de claves en memoria) es la forma correcta de almacenar / recuperar millones de documentosExisten alternativas viables a Bitcask disponibles a través de Java? (BerkleyDB viene a la mente ...) (para especialistas en riak) ¿Riak es mucho más costoso en la implementación / gestión / recursos en comparación con Bitcask "desnudo"?

Respuestas a la pregunta(2)

Su respuesta a la pregunta