Wie implementiere ich Self-Join / Cross-Product mit Hadoop?
Es ist eine häufige Aufgabe, einige Auswertungen für Elementpaare vorzunehmen: Beispiele: Deduplizierung, kollaborative Filterung, ähnliche Elemente usw. Dies ist im Grunde eine Selbstverknüpfung oder ein produktübergreifendes Verfahren mit derselben Datenquelle.