получение количества видимых узлов в PySpark
Я выполняю некоторые операции в PySpark, и недавно увеличил количество узлов в моей конфигурации (которая находится на Amazon EMR). Однако, хотя я увеличил количество узлов в три раза (с 4 до 12), производительность, похоже, не изменилась. Поэтому я хотел бы видеть, видны ли новые узлы Spark.
Я вызываю следующую функцию:
sc.defaultParallelism
>>>> 2
Но я думаю, что это говорит мне об общем количестве задач, распределенных каждому узлу, а не об общем количестве кодов, которые может видеть Spark.
Как мне узнать количество узлов, которые PySpark использует в моем кластере?