hadoop / yarn и распараллеливание задач в файловых системах без hdfs

Я создал кластер Hadoop 2.4.1 и обнаружил, что работающие приложения MapReduce будут распараллеливаться по-разному в зависимости от того, на какой файловой системе находятся входные данные.

При использовании HDFS задание MapReduce порождает достаточно контейнеров, чтобы максимально использовать всю доступную память. Например, будет создан кластер из 3 узлов с 172 ГБ памяти, при этом каждой задаче сопоставления будет выделено 2 ГБ, и будет создано около 86 контейнеров приложений.

В файловой системе, которая не является HDFS (например, NFS или, в моем случае, параллельная файловая система), задание MapReduce будет выделять только поднабор доступных задач (например, с тем же кластером из 3 узлов, около 25-40 контейнеров создано). Поскольку я использую параллельную файловую систему, я не так озабочен узкими местами, которые можно было бы найти, если бы использовать NFS.

Существует ли конфигурация YARN (yarn-site.xml) или MapReduce (mapred-site.xml), которая позволит мне максимально эффективно использовать ресурсы?

Ответы на вопрос(1)

Ваш ответ на вопрос