Результаты поиска по запросу "amazon-emr"
Как обрабатывать поля, заключенные в кавычки (CSV) при импорте данных из S3 в DynamoDB с помощью EMR / Hive
Я пытаюсь использовать EMR / Hive для импорта данных из S3 в DynamoDB. В моем CSV-файле есть поля, которые заключены в двойные кавычки и разделены запятой. При создании внешней таблицы в кусте я могу указать разделитель в виде запятой, но как мне ...
Можем ли мы добавить больше экземпляров Amazon Elastic Mapreduce в существующие экземпляры Amazon Elastic Mapreduce?
Я новичок в Amazon Services и сталкиваюсь с некоторыми проблемами. Предположим, я выполняю некоторый поток работ на Amazon Elastic Mapreduce с общим количес...
Показано, что число данных в кадре равно 4067
ботаем спарк 2.3.0 наAWW EMR, ПоследующийDataFrame "df"не пустой и скромного размера: scala> df.count res0: Long = 4067Следующий код хорошо работает для записиdf вhdfs: scala> val hdf = spark.read.parquet("/tmp/topVendors") ...
) полностью пропустив все промежуточные этапы.
я есть EMR-кластер на одной машине c3.8xlarge. После прочтения нескольких ресурсов я понял, что мне нужно разрешить приличный объем памяти вне кучи, потому что я использую pyspark, поэтому я настроил кластер следующим образом: Один ...
Как избежать чтения старых файлов из S3 при добавлении новых данных?
Раз в 2 часа запускается работа spark для преобразования некоторых файлов tgz в паркет. Задание добавляет новые данные в существующий паркет в s3:
AWS EMR выполняет сценарий «начальной загрузки» на всех уже работающих машинах в кластере
У меня есть один кластер EMR, который работает 24/7. Я не могу выключить его и запустить новый.Я хотел бы выполнить что-то вроде начальной загрузки на уже ра...
Тогда все просто работает. Вам не нужно (а может и не нужно) менять
аюсь поиграть с набором данных Google Ngrams, используя Amazon Elastic Map Reduce. Есть публичный набор данных на http://aws.amazon.com/datasets/8172056142375670 [http://aws.amazon.com/datasets/8172056142375670]и я хочу использовать ...
Повышение spark.yarn.executor.memoryOverhead
Я пытаюсь запустить (py) Spark для EMR, которая обработает большой объем данных. В настоящее время моя работа не выполняется со следующим сообщением об ошибке: