Runnning Spark в кластере: начальное задание не приняло никаких ресурсов
Я запустил оболочку PySpark локально на своем MacBook, подключившись к моему главному узлу на удаленном сервере:
$ PYSPARK_PYTHON=python3 /vagrant/spark-2.0.0-bin-hadoop2.7/bin/pyspark --master spark://[server-ip]:7077
Я попытался выполнить простой пример Spark с сайта:
from pyspark.sql import SparkSession
spark = SparkSession \
.builder \
.appName("Python Spark SQL basic example") \
.config("spark.some.config.option", "some-value") \
.getOrCreate()
df = spark.read.json("/path/to/spark-2.0.0-bin-hadoop2.7/examples/src/main/resources/people.json")
У меня ошибка
Начальная работа не приняла никаких ресурсов; проверьте интерфейс вашего кластера, чтобы убедиться, что работники зарегистрированы и имеют достаточные ресурсы
У меня достаточно памяти на моем сервере, а также на локальном компьютере, но я снова и снова получаю эту странную ошибку. У меня есть 6G для моего кластера Spark, мой сценарий использует только 4 ядра с 1G памяти на узел.
[
Я прогуглил эту ошибку и попытался настроить различные конфигурации памяти, также отключил брандмауэр на обеих машинах, но это мне не помогло. Я понятия не имею, как это исправить.
Кто-то сталкивался с такой же проблемой? Есть идеи?