Тогда все просто работает. Вам не нужно (а может и не нужно) менять

аюсь поиграть с набором данных Google Ngrams, используя Amazon Elastic Map Reduce. Есть публичный набор данных наhttp://aws.amazon.com/datasets/8172056142375670и я хочу использовать потоковую передачу Hadoop.

Для входных файлов он говорит: «Мы храним наборы данных в одном объекте в Amazon S3. Файл находится в формате файла последовательности со сжатием LZO на уровне блоков. Ключ файла последовательности представляет собой номер строки набора данных, сохраненного как LongWritable, и значение - это необработанные данные, хранящиеся как TextWritable. "

Что мне нужно сделать, чтобы обработать эти входные файлы с помощью потоковой передачи Hadoop?

Я попытался добавить дополнительный аргумент «-inputformat SequenceFileAsTextInputFormat» к моим аргументам, но, похоже, это не сработало - мои задания продолжают падать по какой-то неуказанной причине. Есть ли другие аргументы, которые я пропускаю?

Я попытался использовать очень простую идентификацию как мой картограф и редуктор

#!/usr/bin/env ruby

STDIN.each do |line|
  puts line
end

но это не работает

Ответы на вопрос(0)

Ваш ответ на вопрос