Hadoop - Jak reduktor pobiera dane?

Question

May 10, 2012, 05:50 AM

Hadoop - Jak reduktor pobiera dane?

Rozumiem, że program mapujący tworzy 1 partycję na reduktor. Skąd reduktor wie, którą partycję skopiować? Powiedzmy, że istnieją 2 węzły z uruchomionym maperem dla programu do liczenia słów i są skonfigurowane 2 reduktory. Jeśli każdy węzeł mapy produkuje 2 partycje, z możliwością partycji w obu węzłach zawierających to samo słowo co klucz, jak będzie działał reduktor?

Na przykład:

Jeśli węzeł 1 tworzy partycję 1 i partycję 2, a partycja 1 zawiera klucz o nazwie „WHO”.

Jeśli węzeł 2 tworzy partycję 3 i partycję 4, a partycja 3 zawiera klucz o nazwie „WHO”.

Jeśli Partycja 1 i Partycja 4 przeszły do reduktora 1 (i pozostały do reduktora 2), w jaki sposób reduktor 1 obliczy prawidłową liczbę słów?

Jeśli nie jest to możliwe, a partycja 1 i 3 zostaną wprowadzone do reduktora 1, jak to robi Hadoop? Czy upewnia się, że dana para klucz-wartość z różnych węzłów zawsze przechodzi do tego samego reduktora? Jeśli tak, jak to robi?

Dzięki, Suresh.