Результаты поиска по запросу "amazon-emr"

0 ответов

Тогда все просто работает. Вам не нужно (а может и не нужно) менять

аюсь поиграть с набором данных Google Ngrams, используя Amazon Elastic Map Reduce. Есть публичный набор данных на http://aws.amazon.com/datasets/8172056142375670 [http://aws.amazon.com/datasets/8172056142375670]и я хочу использовать ...

2 ответа

YUM_RSRC_DIR предназначен для указания места, где вы настраиваете входные файлы, необходимые для запуска сценариев. Смотрите шаг 4, он описывает шаблон каталога для файлов ресурсов.

я есть необходимость запустить приложение, которое требует графический интерфейс для запуска и настройки. Мне также нужно иметь возможность запускать это приложение на сервисах Amazon EC2 и EMR. Требование EMR означает, что он должен работать на ...

7 ответов

Как обрабатывать поля, заключенные в кавычки (CSV) при импорте данных из S3 в DynamoDB с помощью EMR / Hive

Я пытаюсь использовать EMR / Hive для импорта данных из S3 в DynamoDB. В моем CSV-файле есть поля, которые заключены в двойные кавычки и разделены запятой. При создании внешней таблицы в кусте я могу указать разделитель в виде запятой, но как мне ...

ТОП публикаций

2 ответа

Надеюсь, что это может помочь вам.

аюсь выполнить 2 шага одновременно в EMR. Однако я всегда выполняю первый шаг и второй ожидающий. Часть моей конфигурации пряжи выглядит следующим образом: { "Classification": "capacity-scheduler", "Properties": ...

1 ответ

Hadoop неразборный TextInputFormat

Есть ли способ отправить весь файл в маппер без разделения? я прочиталэтот но мне интересно, есть ли другой способ сделать то же самое, не создавая промежут...

3 ответа

Используйте сценарий ниже в действии начальной загрузки EMR, чтобы решить эту проблему. Патч предоставлен AWS

1 ответ

Amazon MapReduce лучшие практики для анализа журналов

Я анализирую журналы доступа, сгенерированные Apache, Nginx, Darwin (сервер потокового видео) и собираю статистику для каждого доставленного файла по дате / рефереру / пользователю. Тонны журналов генерируются каждый час, и это число, вероятно, ...

1 ответ

AWS EMR выполняет сценарий «начальной загрузки» на всех уже работающих машинах в кластере

У меня есть один кластер EMR, который работает 24/7. Я не могу выключить его и запустить новый.Я хотел бы выполнить что-то вроде начальной загрузки на уже ра...

1 ответ

Как избежать чтения старых файлов из S3 при добавлении новых данных?

Раз в 2 часа запускается работа spark для преобразования некоторых файлов tgz в паркет. Задание добавляет новые данные в существующий паркет в s3:

1 ответ

копирование hadoop из hdfs в S3

успешно завершили работу по векторизации mahout в Amazon EMR (используяMahout на эластичной карте как ссылки). Теперь я хочу скопировать результаты из HDFS в...