Hadoop неразборный TextInputFormat

Есть ли способ отправить весь файл в маппер без разделения?

я прочиталэтот но мне интересно, есть ли другой способ сделать то же самое, не создавая промежуточный файл. В идеале, я хотел бы, чтобы существующая опция в командной строке Hadoop.

Я используюstreaming средство со скриптами Python на Amazon EMR.

Ответы на вопрос(1)

Решение Вопроса

mapred.min.split.size к чему-то огромному (10G):

-D mapred.min.split.size=10737418240

Или сожмите входной файл, используя кодек, который нельзя разделить (Gzip). С расширением .gz TextInputFormat будет возвращать falseisSplittable(FileSystem, Path) метод

 02 сент. 2014 г., 01:32
мое понимание mapred = oldapi, mapreduce = новый API
 jldupont10 июн. 2012 г., 17:45
о, отлично! Большое большое спасибо!
 jldupont10 июн. 2012 г., 17:46
Это свойство все еще действует для hadoop 0.20.205? Я все еще в замешательстве по поводу "старый против нового" API, который поддерживает EMR ... пожалуйста.
 jldupont10 июн. 2012 г., 17:57
Замечательное! Спасибо!
 10 июн. 2012 г., 17:52
Да, потоковая передача использует старый API, и это свойство подробно описано в источнике для 20.205 - строка 221 -svn.apache.org/viewvc/hadoop/common/tags/release-0.20.205.0/src/…

Ваш ответ на вопрос