Wie implementiere ich Self-Join / Cross-Product mit Hadoop?

Question

Jun 16, 2012, 09:33 PM

Wie implementiere ich Self-Join / Cross-Product mit Hadoop?

Es ist eine häufige Aufgabe, einige Auswertungen für Elementpaare vorzunehmen: Beispiele: Deduplizierung, kollaborative Filterung, ähnliche Elemente usw. Dies ist im Grunde eine Selbstverknüpfung oder ein produktübergreifendes Verfahren mit derselben Datenquelle.