Bitcask ok para armazenamento de arquivos simples e de alto desempenho?

Question

May 15, 2011, 03:09 PM

Bitcask ok para armazenamento de arquivos simples e de alto desempenho?

Estou procurando uma maneira simples de armazenar e recuperar milhões de arquivos xml. Atualmente, tudo é feito em um sistema de arquivos, que apresenta alguns problemas de desempenh

Nossos requisitos são:

Capacidade de armazenar milhões de arquivos xml em um processo em lote. Os arquivos XML podem ter até alguns megas, a maioria na faixa de 100 K Pesquisa aleatória muito rápida por ID (por exemplo, URL do documento) Acessível por Java e PerlDisponível nas mais importantes distros Linux e Windows

Eu vi várias plataformas NoSQL (por exemplo, CouchDB, Riak e outros) e, embora esses sistemas pareçam ótimos, parecem quase como um exagero:

Não é necessário clustering Nenhum daemon ("serviço") necessário Nenhuma funcionalidade de pesquisa inteligente é necessária

Tendo investigado mais profundamente o Riak, encontrei o Bitcask (consulte introdução), que parece exatamente o que eu quero. O básico descrito na introdução é realmente intrigante. Mas, infelizmente, não há como acessar um repositório de bitcask via java (ou existe?)

Soo minha pergunta se resume a

é a seguinte suposição: o modelo Bitcask (gravações somente anexadas, gerenciamento de chaves na memória) é o caminho certo para armazenar / recuperar milhões de documentos existem alternativas viáveis ao Bitcask disponíveis via Java? (BerkleyDB vem à mente ...) (para especialistas em riak) O Riak é muito oneroso em termos de implementação / gerenciamento / recursos comparado ao Bitcask "nu"?