Hadoop - требуется помощь для понимания шагов обработки

У меня есть сжатый файл, и он содержит 8 файлов XML размером 5-10 КБ. Я взял эти данные для тестирования. Я написал одну программу только для карт, чтобы распаковать сжатый файл. яwrote program in MR2 and using Hadoop 2.7.1 in psuedo distributed mode, Я запускаю кластер используяsbin/start-dfs.sh команда. Я могу увидеть распакованный вывод в файловой системе в течение нескольких секунд, но обработка продолжается в течение следующих 5-6 минут. Не знаю почему?

Программа MR распаковала файлы до этой стадии, и я могу просмотреть / загрузить эти файлы.

Не в состоянии понять, что обрабатывает моя программа mapreduce здесь. яam using MR2 API in my code and why it is using MR1 API(mapred) here? Ситуация ухудшается, когда у меня есть 128 МБ сжатых файлов, и они распаковываются через 5-10 минут, а в остальное время заняты выполнением некоторых других задач.

Производительность, которую я получаю, неприемлема, и мне нужно понять, что делает обработка hadoop во втором снимке экрана.

Пожалуйста, помогите мне понять, это проблема установки, проблема с моей программой или любая другая проблема?

Ответы на вопрос(1)

Ваш ответ на вопрос