Где мой выход редуктора AWS EMR для моей законченной работы (должен быть на S3, но ничего там)?

У меня проблема с тем, что моя работа Hadoop в EMR AWS не сохраняется на S3. Когда я запускаю задание на меньшем образце, задание просто сохраняет результаты. Когда я запускаю ту же команду, но в своем полном наборе данных, задание снова завершается, но на S3 ничего не существует, где я указал выходной результат.

Видимо там былошибка с AWS EMR в 2009 году, но это было "исправлено".

У кого-нибудь еще есть эта проблема? Я все еще имею свой кластер в сети, надеясь, что данные где-то похоронены на серверах. Если у кого-то есть идея, где я могу найти эти данные, пожалуйста, дайте мне знать!

Update: Когда я смотрю логи одного из редукторов, все выглядит нормально:

2012-06-23 11:09:04,437 INFO org.apache.hadoop.fs.s3native.NativeS3FileSystem (main): Creating new file 's3://myS3Bucket/output/myOutputDirFinal/part-00000' in S3
2012-06-23 11:09:04,439 INFO org.apache.hadoop.fs.s3native.NativeS3FileSystem (main): Outputstream for key 'output/myOutputDirFinal/part-00000' writing to tempfile '/mnt1/var/lib/hadoop/s3/output-3834156726628058755.tmp'
2012-06-23 11:50:26,706 INFO org.apache.hadoop.fs.s3native.NativeS3FileSystem (main): Outputstream for key 'output/myOutputDirFinal/part-00000' is being closed, beginning upload.
2012-06-23 11:50:26,958 INFO org.apache.hadoop.fs.s3native.NativeS3FileSystem (main): Outputstream for key 'output/myOutputDirFinal/part-00000' upload complete
2012-06-23 11:50:27,328 INFO org.apache.hadoop.mapred.Task (main): Task:attempt_201206230638_0001_r_000000_0 is done. And is in the process of commiting
2012-06-23 11:50:29,927 INFO org.apache.hadoop.mapred.Task (main): Task 'attempt_201206230638_0001_r_000000_0' done.

Когда я подключаюсь к узлу этой задачи, упомянутый временный каталог пуст.

Update 2: После прочтенияРазница между Amazon S3 и S3n в HadoopМне интересно, использует ли моя проблема & quot; s3: // & quot; вместо & quot; s3n: // & quot; как мой выходной путь. В моей небольшой выборке (которая хорошо хранится) и полной работе я использовал & quot; s3: // & quot ;. Есть мысли о том, может ли это быть моей проблемой?

Update 3: Теперь я вижу, что в EMR AWS s3: // и s3n: // оба сопоставляются с собственной файловой системой S3 (Документация по AWS EMR).

Update 4: Я перезапускал эту работу еще два раза, каждый раз увеличивая количество серверов и редукторов. Первый из этих двух завершился копированием выходов редуктора 89/90 на S3. 90-е сказали, что оно успешно скопировано в соответствии с журналами, но служба поддержки AWS сообщает, что файла там нет. Они передали эту проблему своей инженерной команде. Мой второй запуск с еще большим количеством редукторов и серверов фактически завершился копированием всех данных в S3 (к счастью!). Одна странность заключается в том, что некоторые редукторы используют FOREVER для копирования данных в S3 - в обоих этих новых прогонах был редуктор, выход которого занимал 1 или 2 часа для копирования в S3, тогда как для других редукторов требовалось не более 10 минут. (файлы 3 ГБ или около того). Я думаю, что это связано с чем-то неправильным с S3NativeFileSystem, используемой EMR (например, длительное зависание - за которое я, конечно, получаю счет; Сначала я загрузил на локальную HDFS, затем на S3, но былпроблемы на этом фронте (ожидает рассмотрения командой инженеров AWS).

TLDR; Использование AWS EMR для непосредственного хранения на S3 кажется ошибочным; их инженерная команда изучает.

Ответы на вопрос(1)

Ваш ответ на вопрос