Результаты поиска по запросу "amazon-emr"

0 ответов

Тогда все просто работает. Вам не нужно (а может и не нужно) менять

аюсь поиграть с набором данных Google Ngrams, используя Amazon Elastic Map Reduce. Есть публичный набор данных на http://aws.amazon.com/datasets/8172056142375670 [http://aws.amazon.com/datasets/8172056142375670]и я хочу использовать ...

1 ответ

Hadoop неразборный TextInputFormat

Есть ли способ отправить весь файл в маппер без разделения? я прочиталэтот но мне интересно, есть ли другой способ сделать то же самое, не создавая промежут...

1 ответ

копирование hadoop из hdfs в S3

Я успешно завершил работу по векторизации mahout в Amazon EMR (используяMahout на эластичной карте как ссылки). Теперь я хочу скопировать результаты из HDFS ...

ТОП публикаций

1 ответ

копирование hadoop из hdfs в S3

успешно завершили работу по векторизации mahout в Amazon EMR (используяMahout на эластичной карте как ссылки). Теперь я хочу скопировать результаты из HDFS в...

1 ответ

AWS EMR выполняет сценарий «начальной загрузки» на всех уже работающих машинах в кластере

У меня есть один кластер EMR, который работает 24/7. Я не могу выключить его и запустить новый.Я хотел бы выполнить что-то вроде начальной загрузки на уже ра...

1 ответ

Почему Yarn на EMR не выделяет все узлы для выполнения заданий Spark?

Я работаю над Apache Spark на Amazon Elastic Map Reduce (EMR). В настоящее время я работаю на emr-4.1.0, который включает Amazon Hadoop 2.6.0 и Spark 1.5.0.К...

1 ответ

Как избежать чтения старых файлов из S3 при добавлении новых данных?

Раз в 2 часа запускается работа spark для преобразования некоторых файлов tgz в паркет. Задание добавляет новые данные в существующий паркет в s3:

1 ответ

AWS EMR Parallel Mappers?

Я пытаюсь определить, сколько узлов мне нужно для моего кластера EMR. В рамках передового опыта рекомендации:(Всего картографов, необходимых для вашей работы...

1 ответ

) полностью пропустив все промежуточные этапы.

я есть EMR-кластер на одной машине c3.8xlarge. После прочтения нескольких ресурсов я понял, что мне нужно разрешить приличный объем памяти вне кучи, потому что я использую pyspark, поэтому я настроил кластер следующим образом: Один ...

1 ответ

, И я могу найти его без тегов, а затем применить теги для дальнейшего использования. Спасибо!

у автоматизировать работу кластера и могу использовать теги для получения атрибутов экземпляра EC2, таких как его идентификатор экземпляра. Документация ...