¿Cómo usar Hadoop Streaming con archivos de secuencia comprimidos con LZO?
Estoy tratando de jugar con el conjunto de datos de Google ngrams usando Elastic Map Reduce de Amazon. Hay un conjunto de datos público enhttp: //aws.amazon.com/datasets/817205614237567, y quiero usar la transmisión de Hadoop.
Para los archivos de entrada, dice "Almacenamos los conjuntos de datos en un solo objeto en Amazon S3. El archivo está en formato de archivo de secuencia con compresión LZO a nivel de bloque. La clave del archivo de secuencia es el número de fila del conjunto de datos almacenado como LongWritable y el valor son los datos sin procesar almacenados como TextWritable ".
¿Qué debo hacer para procesar estos archivos de entrada con Hadoop Streaming?
Intenté agregar un "-inputformat SequenceFileAsTextInputFormat" adicional a mis argumentos, pero esto no parece funcionar: mis trabajos siguen fallando por alguna razón no especificada. ¿Hay otros argumentos que me faltan?
He intentado usar una identidad muy simple como mi mapeador y mi reductor
#!/usr/bin/env ruby
STDIN.each do |line|
puts line
end
pero esto no funciona.