Результаты поиска по запросу "amazon-emr"

2 ответа

YUM_RSRC_DIR предназначен для указания места, где вы настраиваете входные файлы, необходимые для запуска сценариев. Смотрите шаг 4, он описывает шаблон каталога для файлов ресурсов.

я есть необходимость запустить приложение, которое требует графический интерфейс для запуска и настройки. Мне также нужно иметь возможность запускать это приложение на сервисах Amazon EC2 и EMR. Требование EMR означает, что он должен работать на ...

7 ответов

Как обрабатывать поля, заключенные в кавычки (CSV) при импорте данных из S3 в DynamoDB с помощью EMR / Hive

Я пытаюсь использовать EMR / Hive для импорта данных из S3 в DynamoDB. В моем CSV-файле есть поля, которые заключены в двойные кавычки и разделены запятой. При создании внешней таблицы в кусте я могу указать разделитель в виде запятой, но как мне ...

3 ответа

Работа с большим сжатым файлом в Spark

ТОП публикаций

2 ответа

UDF Pig работает в AWS EMR с java.lang.NoClassDefFoundError: org / apache / pig / LoadFunc

Я разрабатываю приложение, которое пытается прочитать файл журнала, хранящийся в долларах S3, и проанализировать его с помощью Elastic MapReduce. Текущий файл журнала имеет следующий формат ------------------------------- COLOR=Black ...

2 ответа

Надеюсь, что это может помочь вам.

аюсь выполнить 2 шага одновременно в EMR. Однако я всегда выполняю первый шаг и второй ожидающий. Часть моей конфигурации пряжи выглядит следующим образом: { "Classification": "capacity-scheduler", "Properties": ...

2 ответа

Как MapReduce читает из нескольких входных файлов?

Я разрабатываю код для чтения данных и записи вHDFS с помощьюmapreduce, Однако, когда у меня есть несколько файлов, я не понимаю, как это обрабатывается. Входной путь к мапперу - это имя каталога, как видно из вывода String filename = ...

1 ответ

копирование hadoop из hdfs в S3

успешно завершили работу по векторизации mahout в Amazon EMR (используяMahout на эластичной карте как ссылки). Теперь я хочу скопировать результаты из HDFS в...

1 ответ

AWS EMR выполняет сценарий «начальной загрузки» на всех уже работающих машинах в кластере

У меня есть один кластер EMR, который работает 24/7. Я не могу выключить его и запустить новый.Я хотел бы выполнить что-то вроде начальной загрузки на уже ра...

2 ответа

UDF Pig работает в AWS EMR с java.lang.NoClassDefFoundError: org / apache / pig / LoadFunc

2 ответа

Повышение spark.yarn.executor.memoryOverhead

Я пытаюсь запустить (py) Spark для EMR, которая обработает большой объем данных. В настоящее время моя работа не выполняется со следующим сообщением об ошибке: