Результаты поиска по запросу "amazon-emr"

7 ответов

Как обрабатывать поля, заключенные в кавычки (CSV) при импорте данных из S3 в DynamoDB с помощью EMR / Hive

Я пытаюсь использовать EMR / Hive для импорта данных из S3 в DynamoDB. В моем CSV-файле есть поля, которые заключены в двойные кавычки и разделены запятой. При создании внешней таблицы в кусте я могу указать разделитель в виде запятой, но как мне ...

2 ответа

Можем ли мы добавить больше экземпляров Amazon Elastic Mapreduce в существующие экземпляры Amazon Elastic Mapreduce?

Я новичок в Amazon Services и сталкиваюсь с некоторыми проблемами. Предположим, я выполняю некоторый поток работ на Amazon Elastic Mapreduce с общим количес...

2 ответа

Показано, что число данных в кадре равно 4067

ботаем спарк 2.3.0 наAWW EMR, ПоследующийDataFrame "df"не пустой и скромного размера: scala> df.count res0: Long = 4067Следующий код хорошо работает для записиdf вhdfs: scala> val hdf = spark.read.parquet("/tmp/topVendors") ...

ТОП публикаций

1 ответ

) полностью пропустив все промежуточные этапы.

я есть EMR-кластер на одной машине c3.8xlarge. После прочтения нескольких ресурсов я понял, что мне нужно разрешить приличный объем памяти вне кучи, потому что я использую pyspark, поэтому я настроил кластер следующим образом: Один ...

1 ответ

Как избежать чтения старых файлов из S3 при добавлении новых данных?

Раз в 2 часа запускается работа spark для преобразования некоторых файлов tgz в паркет. Задание добавляет новые данные в существующий паркет в s3:

1 ответ

AWS EMR выполняет сценарий «начальной загрузки» на всех уже работающих машинах в кластере

У меня есть один кластер EMR, который работает 24/7. Я не могу выключить его и запустить новый.Я хотел бы выполнить что-то вроде начальной загрузки на уже ра...

0 ответов

Тогда все просто работает. Вам не нужно (а может и не нужно) менять

аюсь поиграть с набором данных Google Ngrams, используя Amazon Elastic Map Reduce. Есть публичный набор данных на http://aws.amazon.com/datasets/8172056142375670 [http://aws.amazon.com/datasets/8172056142375670]и я хочу использовать ...

2 ответа

UDF Pig работает в AWS EMR с java.lang.NoClassDefFoundError: org / apache / pig / LoadFunc

2 ответа

Повышение spark.yarn.executor.memoryOverhead

Я пытаюсь запустить (py) Spark для EMR, которая обработает большой объем данных. В настоящее время моя работа не выполняется со следующим сообщением об ошибке:

2 ответа

Как MapReduce читает из нескольких входных файлов?