Как hadoop решает, сколько узлов будет отображать и сокращать задачи
Я новичок в hadoop и пытаюсь это понять. Я говорю о hadoop 2. Когда у меня есть входной файл, который я хочу сделать MapReduce, в программе MapReduce я говорю параметр Split, поэтому он будет выполнять столько же задач карты, сколько split, верно?
Менеджер ресурсов знает, где находятся файлы, и отправит задачи узлам, у которых есть данные, но кто скажет, сколько узлов выполнят задачи? После того, как карты будут добавлены, будет случайное перемешивание, какой узел будет выполнять задачу сокращения, решается разделителем, который делает хэш-карту, верно? Сколько узлов будет уменьшать количество задач? Будут ли узлы, создавшие карты, слишком сокращать задачи?
Спасибо.
TLDR: Если у меня есть кластер и я запускаю задание MapReduce, как Hadoop решает, сколько узлов будет выполнять задачи сопоставления, а затем какие узлы будут выполнять задачи сокращения?