Результаты поиска по запросу "amazon-emr"
YUM_RSRC_DIR предназначен для указания места, где вы настраиваете входные файлы, необходимые для запуска сценариев. Смотрите шаг 4, он описывает шаблон каталога для файлов ресурсов.
я есть необходимость запустить приложение, которое требует графический интерфейс для запуска и настройки. Мне также нужно иметь возможность запускать это приложение на сервисах Amazon EC2 и EMR. Требование EMR означает, что он должен работать на ...
Как обрабатывать поля, заключенные в кавычки (CSV) при импорте данных из S3 в DynamoDB с помощью EMR / Hive
Я пытаюсь использовать EMR / Hive для импорта данных из S3 в DynamoDB. В моем CSV-файле есть поля, которые заключены в двойные кавычки и разделены запятой. При создании внешней таблицы в кусте я могу указать разделитель в виде запятой, но как мне ...
UDF Pig работает в AWS EMR с java.lang.NoClassDefFoundError: org / apache / pig / LoadFunc
Я разрабатываю приложение, которое пытается прочитать файл журнала, хранящийся в долларах S3, и проанализировать его с помощью Elastic MapReduce. Текущий файл журнала имеет следующий формат ------------------------------- COLOR=Black ...
Надеюсь, что это может помочь вам.
аюсь выполнить 2 шага одновременно в EMR. Однако я всегда выполняю первый шаг и второй ожидающий. Часть моей конфигурации пряжи выглядит следующим образом: { "Classification": "capacity-scheduler", "Properties": ...
Как MapReduce читает из нескольких входных файлов?
Я разрабатываю код для чтения данных и записи вHDFS с помощьюmapreduce, Однако, когда у меня есть несколько файлов, я не понимаю, как это обрабатывается. Входной путь к мапперу - это имя каталога, как видно из вывода String filename = ...
копирование hadoop из hdfs в S3
успешно завершили работу по векторизации mahout в Amazon EMR (используяMahout на эластичной карте как ссылки). Теперь я хочу скопировать результаты из HDFS в...
AWS EMR выполняет сценарий «начальной загрузки» на всех уже работающих машинах в кластере
У меня есть один кластер EMR, который работает 24/7. Я не могу выключить его и запустить новый.Я хотел бы выполнить что-то вроде начальной загрузки на уже ра...
Повышение spark.yarn.executor.memoryOverhead
Я пытаюсь запустить (py) Spark для EMR, которая обработает большой объем данных. В настоящее время моя работа не выполняется со следующим сообщением об ошибке: