hadoop / yarn и распараллеливание задач в файловых системах без hdfs
Я создал кластер Hadoop 2.4.1 и обнаружил, что работающие приложения MapReduce будут распараллеливаться по-разному в зависимости от того, на какой файловой системе находятся входные данные.
При использовании HDFS задание MapReduce порождает достаточно контейнеров, чтобы максимально использовать всю доступную память. Например, будет создан кластер из 3 узлов с 172 ГБ памяти, при этом каждой задаче сопоставления будет выделено 2 ГБ, и будет создано около 86 контейнеров приложений.
В файловой системе, которая не является HDFS (например, NFS или, в моем случае, параллельная файловая система), задание MapReduce будет выделять только поднабор доступных задач (например, с тем же кластером из 3 узлов, около 25-40 контейнеров создано). Поскольку я использую параллельную файловую систему, я не так озабочен узкими местами, которые можно было бы найти, если бы использовать NFS.
Существует ли конфигурация YARN (yarn-site.xml) или MapReduce (mapred-site.xml), которая позволит мне максимально эффективно использовать ресурсы?