Hadoop - Jak reduktor pobiera dane?
Rozumiem, że program mapujący tworzy 1 partycję na reduktor. Skąd reduktor wie, którą partycję skopiować? Powiedzmy, że istnieją 2 węzły z uruchomionym maperem dla programu do liczenia słów i są skonfigurowane 2 reduktory. Jeśli każdy węzeł mapy produkuje 2 partycje, z możliwością partycji w obu węzłach zawierających to samo słowo co klucz, jak będzie działał reduktor?
Na przykład:
Jeśli węzeł 1 tworzy partycję 1 i partycję 2, a partycja 1 zawiera klucz o nazwie „WHO”.
Jeśli węzeł 2 tworzy partycję 3 i partycję 4, a partycja 3 zawiera klucz o nazwie „WHO”.
Jeśli Partycja 1 i Partycja 4 przeszły do reduktora 1 (i pozostały do reduktora 2), w jaki sposób reduktor 1 obliczy prawidłową liczbę słów?
Jeśli nie jest to możliwe, a partycja 1 i 3 zostaną wprowadzone do reduktora 1, jak to robi Hadoop? Czy upewnia się, że dana para klucz-wartość z różnych węzłów zawsze przechodzi do tego samego reduktora? Jeśli tak, jak to robi?
Dzięki, Suresh.