Связывание нескольких заданий MapReduce в Hadoop

Во многих реальных ситуациях, когда вы применяете MapReduce, окончательные алгоритмы заканчиваются несколькими шагами MapReduce.

то есть Map1, Reduce1, Map2, Reduce2 и так далее.

Таким образом, у вас есть выходные данные последнего сокращения, которые необходимы в качестве входных данных для следующей карты.

Промежуточные данные - это то, что вы (в общем) не хотите хранить после успешного завершения конвейера. Кроме того, поскольку эти промежуточные данные, как правило, представляют собой некоторую структуру данных (например, «карту» или «набор»), вы не хотите прилагать слишком много усилий при написании и чтении этих пар ключ-значение.

Каков рекомендуемый способ сделать это в Hadoop?

Есть ли (простой) пример, который показывает, как правильно обрабатывать эти промежуточные данные, включая последующую очистку?

Ответы на вопрос(13)

Ваш ответ на вопрос