Resultados de la búsqueda a petición "hadoop"

3 la respuesta

Lectura programática de la salida del programa Hadoop Mapreduce

Esta puede ser una pregunta básica, pero no pude encontrar una respuesta en Google. Tengo un trabajo de reducción de mapas que crea múltiples archivos de salida en su directorio de salida. Mi aplicación Java ejecuta este trabajo en un ...

3 la respuesta

¿Cómo obtener Nombre de archivo / Contenido de archivo como entrada de clave / valor para MAP cuando se ejecuta un trabajo de Hadoop MapReduce?

Estoy creando un programa para analizar archivos PDF, DOC y DOCX. Estos archivos se almacenan en HDFS. Cuando comienzo mi trabajo de MapReduce, quiero que la función de mapa tenga el Nombre de archivo como clave y el Contenido binario como ...

12 la respuesta

Suficiente Java para Hadoop [cerrado]

He sido desarrollador de C ++ durante aproximadamente 10 años. Necesito elegir Java solo para Hadoop. Dudo que haga algo más en Java. Entonces, me gustaría una lista de cosas que necesitaría recoger. Por supuesto, necesitaría aprender el idioma ...

2 la respuesta

¿Cómo manejas los archivos de entrada vacíos o faltantes en Apache Pig?

Nuestro flujo de trabajo utiliza un mapa elástico de AWS que reduce el clúster para ejecutar una serie de trabajos de Pig para manipular una gran cantidad de datos en informes agregados. Desafortunadamente, los datos de entrada son potencialmente ...

1 la respuesta

Ejecutando consulta Pig sobre los datos almacenados en Hive

Me gustaría saber cómo ejecutar consultas de Pig almacenadas en formato Hive. He configurado Hive para almacenar datos comprimidos (usando este ...

2 la respuesta

¿Por qué el sistema de archivos Hadoop no admite E / S aleatorias?

Los sistemas de archivos distribuidos que, como Google File System y Hadoop, no admiten E / S aleatorias. (No puede modificar el archivo que se escribió anteriormente. Solo es posible escribir y agregar). ¿Por qué diseñaron un sistema de ...

4 la respuesta

Interpretación de salida de mahout clusterdumper

Realicé una prueba de agrupamiento en páginas rastreadas (más de 25,000 documentos; conjunto de datos personales). He hecho un clusterdump: $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txt La ...

5 la respuesta

Cómo arreglar "El intento de tarea_201104251139_0295_r_000006_0 no pudo informar el estado durante 600 segundos".

Escribí un trabajo de mapreduce para extraer información de un conjunto de datos. El conjunto de datos es la calificación de los usuarios sobre películas. El número de usuarios es de aproximadamente 250K y el número de películas es ...

3 la respuesta

Demasiadas fallas de recuperación: Hadoop en el clúster (x2)

He estado usando Hadoop durante la última semana más o menos (tratando de entenderlo), y aunque he podido configurar un clúster multinodo (2 máquinas: 1 computadora portátil y un escritorio pequeño) y recuperar los resultados, Parece que siempre ...

10 la respuesta

Iterate dos veces en valores (MapReduce)

Recibo un iterador como argumento y me gustaría repetir dos veces los valores. public void reduce(Pair<String,String> key, Iterator<IntWritable> values, Context context)Es posible ? Cómo ? La firma la impone el marco que estoy usando (es decir, ...