Amazon MapReduce лучшие практики для анализа журналов

Я анализирую журналы доступа, сгенерированные Apache, Nginx, Darwin (сервер потокового видео) и собираю статистику для каждого доставленного файла по дате / рефереру / пользователю.

Тонны журналов генерируются каждый час, и это число, вероятно, резко возрастет в ближайшем будущем, поэтому обработка такого рода данных распределенным способом через Amazon Elastic MapReduce звучит разумно.

Прямо сейчас я готов работать с мапперами и редукторами для обработки моих данных и протестировал весь процесс следующим образом:

загруженные картографы, редукторы и данные в Amazon S3настроил соответствующую работу и успешно обработалскачал агрегированные результаты из Amazon S3 на мой сервер и вставил их в базу данных MySQL, запустив скрипт CLI

Я сделал это вручную в соответствии с тысячами руководств, которые можно найти в Интернете по поводу Amazon ERM.

Что я должен делать дальше? Каков наилучший подход для автоматизации этого процесса?

Должен ли я управлять Amazon EMR jobTracker через API?Как я могу убедиться, что мои журналы не будут обработаны дважды?Каков наилучший способ перемещения обработанных файлов в архив?Каков наилучший подход для вставки результатов в PostgreSQL / MySQL?Как данные для заданий должны быть размещены в каталогах ввода / вывода?Должен ли я каждый раз создавать новое задание EMR с помощью API?Каков наилучший подход для загрузки необработанных логов в Amazon S3?Кто-нибудь может поделиться своими настройками потока обработки данных?Как контролировать загрузку файлов и выполнение заданий?

Я думаю, что эта тема может быть полезна для многих людей, которые пытаются обработать журналы доступа с помощью Amazon Elastic MapReduce, но не смогли найти хорошие материалы и / или лучшие практики.

UPD: Просто, чтобы уточнить здесь один последний вопрос:

Каковы оптимальные методы обработки журналов на основе Amazon Elastic MapReduce?

Похожие сообщения:

Получение данных в и из Elastic MapReduce HDFS

Ответы на вопрос(1)

Ваш ответ на вопрос