Как работает алгоритм сортировки MapReduce?
Одним из основных примеров, который используется при демонстрации возможностей MapReduce, являетсяТест Терасорт, У меня возникли проблемы с пониманием основ алгоритма сортировки, используемого в среде MapReduce.
Для меня сортировка просто включает определение относительного положения элемента по отношению ко всем другим элементам. Таким образом, сортировка включает в себя сравнение «всего» со "всем". Ваш средний алгоритм сортировки (быстрый, пузырьковый, ...) просто делает это умным способом.
По моему мнению, разделение набора данных на множество частей означает, что вы можете отсортировать один фрагмент, а затем вам все равно нужно объединить эти фрагменты в «полный». полностью отсортированный набор данных. Учитывая терабайтный набор данных, распределенный по тысячам систем, я ожидаю, что это будет огромной задачей.
Так как это на самом деле сделано? Как работает этот алгоритм сортировки MapReduce?
Спасибо, что помогли мне понять.