Administrar una gran cantidad de archivos de registro distribuidos en muchas máquinas

Comenzamos a utilizar una plataforma de terceros (GigaSpaces) que nos ayuda con la informática distribuida. Uno de los principales problemas que estamos tratando de resolver ahora es cómo administrar nuestros archivos de registro en este entorno distribuido. Tenemos la siguiente configuración actualmente.

Nuestra plataforma se distribuye en 8 máquinas. En cada máquina tenemos 12-15 procesos que inician sesión en archivos de registro separados utilizando java.util.logging. Además de esta plataforma, tenemos nuestras propias aplicaciones que usan log4j y log para separar archivos. También redirigimos stdout a un archivo separado para capturar volcados de subprocesos y similares.

Esto da como resultado unos 200 archivos de registro diferentes.

A partir de ahora no tenemos herramientas para ayudar en la gestión de estos archivos. En los siguientes casos, esto nos causa serios dolores de cabeza.

Solución de problemas cuando no sabemos de antemano en qué proceso se produjo el problema. En este caso, actualmente iniciamos sesión en cada máquina usando ssh y comenzamos a usargrep.

Intentando ser proactivo revisando regularmente los registros para cualquier cosa fuera de lo común. En este caso, también iniciamos sesión en todas las máquinas y observamos diferentes registros utilizandoless ytail.

Configuración de alertas. Estamos buscando configurar alertas en eventos por encima de un umbral. Esto parece ser una molestia con 200 archivos de registro para verificar.

Hoy tenemos solo unos 5 eventos de registro por segundo, pero eso aumentará a medida que migremos más y más código a la nueva plataforma.

Me gustaría hacerle a la comunidad las siguientes preguntas.

¿Cómo ha manejado casos similares con muchos archivos de registro distribuidos en varias máquinas registradas a través de diferentes marcos?¿Por qué elegiste esa solución en particular?¿Cómo funcionaron sus soluciones? ¿Qué encontraste bueno y qué encontraste malo?

Muchas gracias.

Actualizar

Terminamos evaluando una versión de prueba de Splunk. Estamos muy contentos con su funcionamiento y hemos decidido comprarlo. Fácil de configurar, búsquedas rápidas y un montón de funciones para personas con inclinaciones técnicas. Puedo recomendar a cualquiera en situaciones similares que lo revisen.