Где мой выход редуктора AWS EMR для моей законченной работы (должен быть на S3, но ничего там)?

Question

May 23, 2017, 01:50 PM

amazon-web-services elastic-map-reduce amazon-s3 missing-data

Где мой выход редуктора AWS EMR для моей законченной работы (должен быть на S3, но ничего там)?

У меня проблема с тем, что моя работа Hadoop в EMR AWS не сохраняется на S3. Когда я запускаю задание на меньшем образце, задание просто сохраняет результаты. Когда я запускаю ту же команду, но в своем полном наборе данных, задание снова завершается, но на S3 ничего не существует, где я указал выходной результат.

Видимо там былошибка с AWS EMR в 2009 году, но это было "исправлено".

У кого-нибудь еще есть эта проблема? Я все еще имею свой кластер в сети, надеясь, что данные где-то похоронены на серверах. Если у кого-то есть идея, где я могу найти эти данные, пожалуйста, дайте мне знать!

Update: Когда я смотрю логи одного из редукторов, все выглядит нормально:

2012-06-23 11:09:04,437 INFO org.apache.hadoop.fs.s3native.NativeS3FileSystem (main): Creating new file 's3://myS3Bucket/output/myOutputDirFinal/part-00000' in S3
2012-06-23 11:09:04,439 INFO org.apache.hadoop.fs.s3native.NativeS3FileSystem (main): Outputstream for key 'output/myOutputDirFinal/part-00000' writing to tempfile '/mnt1/var/lib/hadoop/s3/output-3834156726628058755.tmp'
2012-06-23 11:50:26,706 INFO org.apache.hadoop.fs.s3native.NativeS3FileSystem (main): Outputstream for key 'output/myOutputDirFinal/part-00000' is being closed, beginning upload.
2012-06-23 11:50:26,958 INFO org.apache.hadoop.fs.s3native.NativeS3FileSystem (main): Outputstream for key 'output/myOutputDirFinal/part-00000' upload complete
2012-06-23 11:50:27,328 INFO org.apache.hadoop.mapred.Task (main): Task:attempt_201206230638_0001_r_000000_0 is done. And is in the process of commiting
2012-06-23 11:50:29,927 INFO org.apache.hadoop.mapred.Task (main): Task 'attempt_201206230638_0001_r_000000_0' done.

Когда я подключаюсь к узлу этой задачи, упомянутый временный каталог пуст.

Update 2: После прочтенияРазница между Amazon S3 и S3n в HadoopМне интересно, использует ли моя проблема & quot; s3: // & quot; вместо & quot; s3n: // & quot; как мой выходной путь. В моей небольшой выборке (которая хорошо хранится) и полной работе я использовал & quot; s3: // & quot ;. Есть мысли о том, может ли это быть моей проблемой?

Update 3: Теперь я вижу, что в EMR AWS s3: // и s3n: // оба сопоставляются с собственной файловой системой S3 (Документация по AWS EMR).

Update 4: Я перезапускал эту работу еще два раза, каждый раз увеличивая количество серверов и редукторов. Первый из этих двух завершился копированием выходов редуктора 89/90 на S3. 90-е сказали, что оно успешно скопировано в соответствии с журналами, но служба поддержки AWS сообщает, что файла там нет. Они передали эту проблему своей инженерной команде. Мой второй запуск с еще большим количеством редукторов и серверов фактически завершился копированием всех данных в S3 (к счастью!). Одна странность заключается в том, что некоторые редукторы используют FOREVER для копирования данных в S3 - в обоих этих новых прогонах был редуктор, выход которого занимал 1 или 2 часа для копирования в S3, тогда как для других редукторов требовалось не более 10 минут. (файлы 3 ГБ или около того). Я думаю, что это связано с чем-то неправильным с S3NativeFileSystem, используемой EMR (например, длительное зависание - за которое я, конечно, получаю счет; Сначала я загрузил на локальную HDFS, затем на S3, но былпроблемы на этом фронте (ожидает рассмотрения командой инженеров AWS).

TLDR; Использование AWS EMR для непосредственного хранения на S3 кажется ошибочным; их инженерная команда изучает.

Где мой выход редуктора AWS EMR для моей законченной работы (должен быть на S3, но ничего там)?

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Где мой выход редуктора AWS EMR для моей законченной работы (должен быть на S3, но ничего там)?

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы