Como usar o Hadoop Streaming com arquivos de sequência compactados por LZO?

Estou tentando brincar com o conjunto de dados de ngrams do Google usando o Elastic Map Reduce da Amazon. Há um conjunto de dados público emhttp://aws.amazon.com/datasets/8172056142375670, e quero usar o streaming do Hadoop.

Para os arquivos de entrada, diz "Armazenamos os conjuntos de dados em um único objeto no Amazon S3. O arquivo está no formato de arquivo de sequência com compactação LZO no nível do bloco. A chave do arquivo de sequência é o número da linha do conjunto de dados armazenado como LongWritable e o value são os dados brutos armazenados como TextWritable ".

O que preciso fazer para processar esses arquivos de entrada com o Hadoop Streaming?

Tentei adicionar um "-inputformat SequenceFileAsTextInputFormat" aos meus argumentos, mas isso não parece funcionar - meus trabalhos continuam falhando por algum motivo não especificado. Faltam outros argumentos?

Eu tentei usar uma identidade muito simples como meu mapeador e redutor

#!/usr/bin/env ruby

STDIN.each do |line|
  puts line
end

mas isso não funciona.

questionAnswers(4)

yourAnswerToTheQuestion