Rozmiar podziału wejścia Hadoop a rozmiar bloku

Przechodzę przez definitywny przewodnik hadoop, w którym wyraźnie wyjaśniono podział wejść. To idzie tak

Podziały wejściowe nie zawierają rzeczywistych danych, a raczej miejsca przechowywania danych na HDFS

i

Zazwyczaj podział rozmiaru wejścia jest taki sam jak rozmiar bloku

1) powiedzmy, że blok 64 MB znajduje się na węźle A i jest replikowany między dwoma innymi węzłami (B, C), a rozmiar podziału wejściowego dla programu zmniejszającego mapę wynosi 64 MB, czy ten podział będzie miał tylko lokalizację dla węzła A? Czy będzie miał lokalizacje dla wszystkich trzech węzłów A, b, C?

2) Ponieważ dane są lokalne dla wszystkich trzech węzłów, w jaki sposób framework decyduje (wybiera) maptask do uruchomienia na danym węźle?

3) W jaki sposób jest obsługiwany, jeśli rozmiar podziału wejściowego jest większy lub mniejszy niż rozmiar bloku?

questionAnswers(7)

yourAnswerToTheQuestion