Amazon MapReduce лучшие практики для анализа журналов

Question

Mar 23, 2012, 12:47 PM

hadoop hadoop-streaming amazon-s3 amazon-emr logging

Amazon MapReduce лучшие практики для анализа журналов

Я анализирую журналы доступа, сгенерированные Apache, Nginx, Darwin (сервер потокового видео) и собираю статистику для каждого доставленного файла по дате / рефереру / пользователю.

Тонны журналов генерируются каждый час, и это число, вероятно, резко возрастет в ближайшем будущем, поэтому обработка такого рода данных распределенным способом через Amazon Elastic MapReduce звучит разумно.

Прямо сейчас я готов работать с мапперами и редукторами для обработки моих данных и протестировал весь процесс следующим образом:

загруженные картографы, редукторы и данные в Amazon S3настроил соответствующую работу и успешно обработалскачал агрегированные результаты из Amazon S3 на мой сервер и вставил их в базу данных MySQL, запустив скрипт CLI

Я сделал это вручную в соответствии с тысячами руководств, которые можно найти в Интернете по поводу Amazon ERM.

Что я должен делать дальше? Каков наилучший подход для автоматизации этого процесса?

Должен ли я управлять Amazon EMR jobTracker через API?Как я могу убедиться, что мои журналы не будут обработаны дважды?Каков наилучший способ перемещения обработанных файлов в архив?Каков наилучший подход для вставки результатов в PostgreSQL / MySQL?Как данные для заданий должны быть размещены в каталогах ввода / вывода?Должен ли я каждый раз создавать новое задание EMR с помощью API?Каков наилучший подход для загрузки необработанных логов в Amazon S3?Кто-нибудь может поделиться своими настройками потока обработки данных?Как контролировать загрузку файлов и выполнение заданий?

Я думаю, что эта тема может быть полезна для многих людей, которые пытаются обработать журналы доступа с помощью Amazon Elastic MapReduce, но не смогли найти хорошие материалы и / или лучшие практики.

UPD: Просто, чтобы уточнить здесь один последний вопрос:

Каковы оптимальные методы обработки журналов на основе Amazon Elastic MapReduce?

Похожие сообщения:

Получение данных в и из Elastic MapReduce HDFS

Amazon MapReduce лучшие практики для анализа журналов

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Amazon MapReduce лучшие практики для анализа журналов

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы