Como usar o Hadoop Streaming com arquivos de sequência compactados por LZO?
Estou tentando brincar com o conjunto de dados de ngrams do Google usando o Elastic Map Reduce da Amazon. Há um conjunto de dados público emhttp://aws.amazon.com/datasets/8172056142375670, e quero usar o streaming do Hadoop.
Para os arquivos de entrada, diz "Armazenamos os conjuntos de dados em um único objeto no Amazon S3. O arquivo está no formato de arquivo de sequência com compactação LZO no nível do bloco. A chave do arquivo de sequência é o número da linha do conjunto de dados armazenado como LongWritable e o value são os dados brutos armazenados como TextWritable ".
O que preciso fazer para processar esses arquivos de entrada com o Hadoop Streaming?
Tentei adicionar um "-inputformat SequenceFileAsTextInputFormat" aos meus argumentos, mas isso não parece funcionar - meus trabalhos continuam falhando por algum motivo não especificado. Faltam outros argumentos?
Eu tentei usar uma identidade muito simples como meu mapeador e redutor
#!/usr/bin/env ruby
STDIN.each do |line|
puts line
end
mas isso não funciona.