Gerenciando um grande número de arquivos de log distribuídos em muitas máquinas

Começamos a usar uma plataforma de terceiros (GigaSpaces) que nos ajuda na computação distribuída. Um dos principais problemas que estamos tentando resolver agora é como gerenciar nossos arquivos de log nesse ambiente distribuído. Atualmente, temos a seguinte configuração.

Nossa plataforma está distribuída em 8 máquinas. Em cada máquina, temos 12 a 15 processos que registram para separar arquivos de log usando java.util.logging. No topo desta plataforma, temos nossos próprios aplicativos que usam log4j e log para separar arquivos. Também redirecionamos o stdout para um arquivo separado para capturar despejos de threads e similares.

Isso resulta em cerca de 200 arquivos de log diferentes.

No momento, não temos ferramentas para ajudar no gerenciamento desses arquivos. Nos seguintes casos, isso nos causa graves dores de cabeça.

Solução de problemas quando não sabemos de antemão em qual processo o problema ocorreu. Nesse caso, atualmente efetuamos login em cada máquina usando ssh e começamos a usargrep.

Tentando ser proativo, verificando regularmente os logs em busca de algo fora do comum. Nesse caso, atualmente também efetuamos login em todas as máquinas e observamos diferentes logs usandoless etail.

Configurando alertas. Estamos procurando configurar alertas para eventos acima de um limite. Isso parece um problema com 200 arquivos de log para verificar.

Hoje, temos apenas cerca de 5 eventos de log por segundo, mas isso aumentará à medida que migrarmos cada vez mais código para a nova plataforma.

Gostaria de fazer à comunidade as seguintes perguntas.

Como você lidou com casos semelhantes com muitos arquivos de log distribuídos em várias máquinas registradas em estruturas diferentes?Por que você escolheu essa solução específica?Como suas soluções funcionaram? O que você achou bom e o que você achou ruim?

Muito Obrigado.

Atualizar

Acabamos avaliando uma versão de avaliação do Splunk. Estamos muito felizes com o funcionamento e decidimos comprá-lo. Fácil de configurar, pesquisas rápidas e uma infinidade de recursos para os tecnicamente inclinados. Eu posso recomendar qualquer pessoa em situações semelhantes para conferir.

questionAnswers(5)

yourAnswerToTheQuestion