Wie plane ich Hadoop Map-Aufgaben in einem 8-Knoten-Cluster mit mehreren Kernen?

Ich habe ein "Map only" -Programm (keine Reduktionsphase). Die Größe der Eingabedatei ist groß genug, um 7 Map-Tasks zu erstellen, und ich habe dies anhand der ausgegebenen Ausgabe überprüft (Teil-000 bis Teil-006). Jetzt verfügt mein Cluster über 8 Knoten mit jeweils 8 Kernen und 8 GB Arbeitsspeicher sowie ein gemeinsam genutztes Dateisystem, das auf dem Hauptknoten gehostet wird.

Meine Frage ist, ob ich zwischen der Ausführung aller 7 Map-Tasks in nur einem Knoten oder der Ausführung der 7 Map-Tasks in 7 verschiedenen Slave-Knoten wählen kann (1 Task pro Knoten). Wenn ich das kann, ist eine Änderung in meinem Code und in der Konfigurationsdatei erforderlich.

Ich habe versucht, den Parameter "mapred.tasktracker.map.tasks.maximum" nur in meinem Code auf 1 und 7 zu setzen, aber keinen nennenswerten Zeitunterschied festgestellt. In meiner Konfigurationsdatei ist es als 1 festgelegt.

Antworten auf die Frage(3)

Ihre Antwort auf die Frage