Во многих реальных ситуациях, когда вы применяете MapReduce, окончательные алгоритмы превращаются в несколько шагов MapReduce.
т.е. Map1, Reduce1, Map2, Reduce2 и так далее.
Итак, у вас есть результат последнего сокращения, который необходим в качестве входных данных для следующей карты.
Промежуточные данные - это то, что вы (как правило) не хотите сохранять после успешного завершения конвейера. Кроме того, поскольку эти промежуточные данные, как правило, представляют собой некую структуру данных (например, «карту» или «набор»), вы не хотите прикладывать слишком много усилий для записи и чтения этих пар ключ-значение.
Каков рекомендуемый способ сделать это в Hadoop?
Есть ли (простой) пример, который показывает, как правильно обрабатывать эти промежуточные данные, включая последующую очистку?