Jak zaplanować zadania mapy Hadoop w wielordzeniowym klastrze 8 węzłów?

Question

Apr 29, 2012, 05:47 PM

Jak zaplanować zadania mapy Hadoop w wielordzeniowym klastrze 8 węzłów?

Mam program „tylko mapa” (faza bez redukcji). Rozmiar pliku wejściowego jest wystarczająco duży, aby utworzyć 7 zadań mapowych i zweryfikowałem to, patrząc na wyprodukowane dane wyjściowe (części 000 do part006). Teraz mój klaster ma 8 węzłów, każdy z 8 rdzeniami i 8 GB pamięci oraz współdzielonym systemem plików hostowanym w węźle głównym.

Moje pytanie brzmi, czy mogę wybrać między uruchomieniem wszystkich 7 zadań na mapie tylko w jednym węźle lub uruchomieniem 7 zadań na mapie w 7 różnych węzłach podrzędnych (1 zadanie na węzeł). Jeśli mogę to zrobić, to jaka zmiana w moim kodzie i pliku konfiguracyjnym jest potrzebna.

Próbowałem ustawić parametr „mapred.tasktracker.map.tasks.maximum” na 1 i 7 tylko w moim kodzie, ale nie znalazłem żadnej znaczącej różnicy czasu. W moim pliku konfiguracyjnym jest ustawiony jako 1.