Результаты поиска по запросу "emr"
в Amazon EMR 4.0.0 настройка /etc/spark/conf/spark-env.conf неэффективна
Я запускаю свой основанный на искре hiveserver2 в Amazon EMR, который имеет дополнительную зависимость от пути к классам. Из-за этой ошибки в Amazon EMR:http...
Почему Yarn на EMR не выделяет все узлы для выполнения заданий Spark?
Я работаю над Apache Spark на Amazon Elastic Map Reduce (EMR). В настоящее время я работаю на emr-4.1.0, который включает Amazon Hadoop 2.6.0 и Spark 1.5.0.К...
Повышение spark.yarn.executor.memoryOverhead
Я пытаюсь запустить (py) Spark для EMR, которая обработает большой объем данных. В настоящее время моя работа не выполняется со следующим сообщением об ошибке:
Apache Spark читает для S3: не может выбирать объекты thread.lock
Поэтому я хочу, чтобы мое приложение Spark считывало текст с Amazon S3. Я написал следующий простой скрипт:
Как избежать чтения старых файлов из S3 при добавлении новых данных?
Раз в 2 часа запускается работа spark для преобразования некоторых файлов tgz в паркет. Задание добавляет новые данные в существующий паркет в s3:
к рабочим узлам. Google DataProc делает. Тем не менее, YARN - это своего рода хакерский способ получения переменных среды. Подумайте только о том, чтобы передать их в качестве аргумента вашей искровой работе.
ужно установить пользовательскую переменную среды в EMR, которая будет доступна при запуске приложения spark.Я попытался добавить это: