локальность данных spark + hadoop

Я получил RDD с именами файлов, поэтому RDD [String]. Я получаю это путем распараллеливания списка имен файлов (файлов внутри hdfs).

Теперь я сопоставляю этот rdd, и мой код открывает поток hadoop, используя FileSystem.open (путь). Затем я обрабатываю это.

Когда я запускаю свою задачу, я использую искровой пользовательский интерфейс / этапы и вижу «Уровень локальности» = «PROCESS_LOCAL» для всех задач. Я не думаю, что спарк мог бы достичь локальности данных так, как я запускаю задачу (на кластере из 4 узлов данных), как это возможно?

Ответы на вопрос(2)

Ваш ответ на вопрос