Результаты поиска по запросу "emr"
Как MapReduce читает из нескольких входных файлов?
Я разрабатываю код для чтения данных и записи вHDFS с помощьюmapreduce, Однако, когда у меня есть несколько файлов, я не понимаю, как это обрабатывается. Входной путь к мапперу - это имя каталога, как видно из вывода String filename = ...
Почему Yarn на EMR не выделяет все узлы для выполнения заданий Spark?
Я работаю над Apache Spark на Amazon Elastic Map Reduce (EMR). В настоящее время я работаю на emr-4.1.0, который включает Amazon Hadoop 2.6.0 и Spark 1.5.0.К...
Как указать сопоставленные конфигурации и параметры java с помощью пользовательского jar в CLI с помощью Amazon EMR?
Я хотел бы знать, как указать конфигурации mapreduce, такие как mapred.task.timeout, mapred.min.split.sizeи т.д., при запуске потокового задания с использованием пользовательского jar. Мы можем использовать следующий способ, чтобы указать эти ...
Spark. Какой тип экземпляра предпочтителен для кластера AWS EMR? [закрыто]
Я использую некоторые алгоритмы машинного обучения на кластере EMR Spark. Мне интересно, какой тип экземпляра использовать, чтобы я мог получить оптимальное ...
Слишком много открытых файлов в EMR
Я получаю следующие исключения в моих редукторах:
Как избежать чтения старых файлов из S3 при добавлении новых данных?
Раз в 2 часа запускается работа spark для преобразования некоторых файлов tgz в паркет. Задание добавляет новые данные в существующий паркет в s3: