Управление большим количеством файлов журналов, распределенных по многим машинам

Мы начали использовать стороннюю платформу (GigaSpaces), которая помогает нам в распределенных вычислениях. Одна из основных проблем, которую мы пытаемся решить сейчас, - это управление файлами журналов в этой распределенной среде. У нас есть следующие настройки в настоящее время.

Наша платформа распространяется на 8 машин. На каждой машине у нас есть 12-15 процессов, которые регистрируют отдельные файлы журнала, используя java.util.logging. Помимо этой платформы у нас есть собственные приложения, которые используют log4j и log для разделения файлов. Мы также перенаправляем стандартный вывод в отдельный файл, чтобы перехватывать дампы потоков и тому подобное.

В результате получается около 200 различных файлов журнала.

На данный момент у нас нет инструментов для управления этими файлами. В следующих случаях это вызывает у нас серьезные головные боли.

Устранение неполадок, когда мы заранее не знаем, в каком процессе возникла проблема. В этом случае мы в настоящее время заходим на каждую машину с помощью ssh и начинаем использоватьgrep.

Пытаться быть активным, регулярно проверяя журналы на что-нибудь необычное. В этом случае мы также в настоящее время подключаемся ко всем машинам и смотрим различные журналы, используяless а такжеtail.

Настройка оповещений. Мы рассчитываем настроить оповещения о событиях, превышающих порог. Это похоже на боль с 200 файлами журнала для проверки.

Сегодня у нас только около 5 событий журнала в секунду, но это будет увеличиваться по мере того, как мы будем все больше и больше кода переносить на новую платформу.

Я хотел бы задать сообществу следующие вопросы.

Как вы справлялись с подобными случаями, когда многие файлы журналов распределялись по нескольким машинам, которые регистрировались в разных системах?Почему вы выбрали именно это решение?Как сработали ваши решения? Что ты нашел хорошего и что ты нашел плохого?

Большое спасибо.

Обновить

В итоге мы оценили пробную версию Splunk. Мы очень довольны тем, как это работает, и решили приобрести его. Простота установки, быстрый поиск и множество функций для технически склонных. Я могу порекомендовать любому в подобных ситуациях, чтобы проверить это.