¿Cómo usar Hadoop Streaming con archivos de secuencia comprimidos con LZO?

Question

Feb 21, 2011, 12:46 AM

¿Cómo usar Hadoop Streaming con archivos de secuencia comprimidos con LZO?

Estoy tratando de jugar con el conjunto de datos de Google ngrams usando Elastic Map Reduce de Amazon. Hay un conjunto de datos público enhttp: //aws.amazon.com/datasets/817205614237567, y quiero usar la transmisión de Hadoop.

Para los archivos de entrada, dice "Almacenamos los conjuntos de datos en un solo objeto en Amazon S3. El archivo está en formato de archivo de secuencia con compresión LZO a nivel de bloque. La clave del archivo de secuencia es el número de fila del conjunto de datos almacenado como LongWritable y el valor son los datos sin procesar almacenados como TextWritable ".

¿Qué debo hacer para procesar estos archivos de entrada con Hadoop Streaming?

Intenté agregar un "-inputformat SequenceFileAsTextInputFormat" adicional a mis argumentos, pero esto no parece funcionar: mis trabajos siguen fallando por alguna razón no especificada. ¿Hay otros argumentos que me faltan?

He intentado usar una identidad muy simple como mi mapeador y mi reductor

#!/usr/bin/env ruby

STDIN.each do |line|
  puts line
end

pero esto no funciona.

Respuestas a la pregunta(4)

Preguntas populares

0 la respuesta

Android - JSONException Sin valor para

0 la respuesta

C hack para almacenar un bit que ocupa espacio de 1 bit?

0 la respuesta

agregar control de usuario a un formulario

0 la respuesta

Recorrer los valores del Cuadro de selección multiselector para crear y nombrar un libro de trabajo

0 la respuesta

Cómo presionar Ctrl + A para seleccionar todo el contenido en una página por Selenium WebDriver usando Java

¡Eres muy activo! ¡Es genial!

¿Cómo usar Hadoop Streaming con archivos de secuencia comprimidos con LZO?

Respuestas a la pregunta(4)

Su respuesta a la pregunta

Preguntas populares