Como usar o Hadoop Streaming com arquivos de sequência compactados por LZO?

Question

Feb 21, 2011, 12:46 AM

Como usar o Hadoop Streaming com arquivos de sequência compactados por LZO?

Estou tentando brincar com o conjunto de dados de ngrams do Google usando o Elastic Map Reduce da Amazon. Há um conjunto de dados público emhttp://aws.amazon.com/datasets/8172056142375670, e quero usar o streaming do Hadoop.

Para os arquivos de entrada, diz "Armazenamos os conjuntos de dados em um único objeto no Amazon S3. O arquivo está no formato de arquivo de sequência com compactação LZO no nível do bloco. A chave do arquivo de sequência é o número da linha do conjunto de dados armazenado como LongWritable e o value são os dados brutos armazenados como TextWritable ".

O que preciso fazer para processar esses arquivos de entrada com o Hadoop Streaming?

Tentei adicionar um "-inputformat SequenceFileAsTextInputFormat" aos meus argumentos, mas isso não parece funcionar - meus trabalhos continuam falhando por algum motivo não especificado. Faltam outros argumentos?

Eu tentei usar uma identidade muito simples como meu mapeador e redutor

#!/usr/bin/env ruby

STDIN.each do |line|
  puts line
end

mas isso não funciona.

questionAnswers(4)

Perguntas populares

0 a resposta

aneira genérica de verificar se a entidade existe no Entity Framewor

0 a resposta

NullPointerException: println precisa de uma mensagem no android

0 a resposta

Como armazenar datas muito antigas no banco de dados?

0 a resposta

Postgresql SQL GROUP BY intervalo de tempo com precisão arbitrária (até milésimos de segundo)

0 a resposta

Esta DLL é gerenciada ou não gerenciad

Você é muito ativo! É ótimo!

Como usar o Hadoop Streaming com arquivos de sequência compactados por LZO?

questionAnswers(4)

yourAnswerToTheQuestion

Perguntas populares