KeyError: 'SPARK_HOME' в pyspark на Jupyter в Google-Cloud-DataProc
При попытке показать SparkDF (Test) я получаю KeyError, как показано ниже. Возможно, что-то пошло не так в функции, которую я использовал раньшеTest.show(3)
.
KeyError говорит: KeyError: 'SPARK_HOME'. Я предполагаю, что SPARK_HOME не определен на главном и / или рабочих. Есть ли способ, которым я могу автоматически указать каталог SPARK_HOME на обоих? Желательно с помощью действия инициализации.
Py4JJavaErrorTraceback (последний вызов был последним) в () ----> 1 Test.show (3)
/usr/lib/spark/python/pyspark/sql/dataframe.py in show(self, n, truncate)
255 +---+-----+
256 """
--> 257 print(self._jdf.showString(n, truncate))
258
259 def __repr__(self):
...
raise KeyError(key)
KeyError: 'SPARK_HOME'