Тогда все просто работает. Вам не нужно (а может и не нужно) менять
аюсь поиграть с набором данных Google Ngrams, используя Amazon Elastic Map Reduce. Есть публичный набор данных наhttp://aws.amazon.com/datasets/8172056142375670и я хочу использовать потоковую передачу Hadoop.
Для входных файлов он говорит: «Мы храним наборы данных в одном объекте в Amazon S3. Файл находится в формате файла последовательности со сжатием LZO на уровне блоков. Ключ файла последовательности представляет собой номер строки набора данных, сохраненного как LongWritable, и значение - это необработанные данные, хранящиеся как TextWritable. "
Что мне нужно сделать, чтобы обработать эти входные файлы с помощью потоковой передачи Hadoop?
Я попытался добавить дополнительный аргумент «-inputformat SequenceFileAsTextInputFormat» к моим аргументам, но, похоже, это не сработало - мои задания продолжают падать по какой-то неуказанной причине. Есть ли другие аргументы, которые я пропускаю?
Я попытался использовать очень простую идентификацию как мой картограф и редуктор
#!/usr/bin/env ruby
STDIN.each do |line|
puts line
end
но это не работает