Como implementar self-join / cross-product com hadoop?
É uma tarefa comum fazer alguma avaliação em pares de itens: Exemplos: deduplicação, filtragem colaborativa, itens semelhantes, etc. Isso é basicamente auto-associação ou produto cruzado com a mesma fonte de dados.