Результаты поиска по запросу "emr"

2 ответа

в Amazon EMR 4.0.0 настройка /etc/spark/conf/spark-env.conf неэффективна

Я запускаю свой основанный на искре hiveserver2 в Amazon EMR, который имеет дополнительную зависимость от пути к классам. Из-за этой ошибки в Amazon EMR:http...

1 ответ

Почему Yarn на EMR не выделяет все узлы для выполнения заданий Spark?

Я работаю над Apache Spark на Amazon Elastic Map Reduce (EMR). В настоящее время я работаю на emr-4.1.0, который включает Amazon Hadoop 2.6.0 и Spark 1.5.0.К...

0 ответов

Ошибка задания искры: YarnAllocator: Статус выхода: -100. Диагностика: контейнер освобожден на * потерянном * узле

ТОП публикаций

2 ответа

Нужен совет по стратегии для переноса больших таблиц из RDS в DynamoDB

6 ответов

Обнаружена проблема с гуавой # 1635, которая указывает на то, что используется версия гуавы менее 16.01

1 ответ

YARN: В чем разница между числом исполнителей и ядрами исполнителей в Spark?

2 ответа

Повышение spark.yarn.executor.memoryOverhead

Я пытаюсь запустить (py) Spark для EMR, которая обработает большой объем данных. В настоящее время моя работа не выполняется со следующим сообщением об ошибке:

2 ответа

Apache Spark читает для S3: не может выбирать объекты thread.lock

Поэтому я хочу, чтобы мое приложение Spark считывало текст с Amazon S3. Я написал следующий простой скрипт:

1 ответ

Как избежать чтения старых файлов из S3 при добавлении новых данных?

Раз в 2 часа запускается работа spark для преобразования некоторых файлов tgz в паркет. Задание добавляет новые данные в существующий паркет в s3:

2 ответа

 к рабочим узлам. Google DataProc делает. Тем не менее, YARN - это своего рода хакерский способ получения переменных среды. Подумайте только о том, чтобы передать их в качестве аргумента вашей искровой работе.

ужно установить пользовательскую переменную среды в EMR, которая будет доступна при запуске приложения spark.Я попытался добавить это: