Jak zaimplementować self-join / cross-product z hadoop?
Powszechnym zadaniem jest dokonanie oceny na parach elementów: Przykłady: de-duplikacja, filtrowanie grupowe, podobne elementy itp. Jest to w zasadzie samo-przyłączenie lub cross-product z tym samym źródłem danych.