Resultados de la búsqueda a petición "hadoop"

Esta puede ser una pregunta básica, pero no pude encontrar una respuesta en Google. Tengo un trabajo de reducción de mapas que crea múltiples archivos de salida en su directorio de salida. Mi aplicación Java ejecuta este trabajo en un ...

java mapreduce distributed-system

3 la respuesta

¿Cómo obtener Nombre de archivo / Contenido de archivo como entrada de clave / valor para MAP cuando se ejecuta un trabajo de Hadoop MapReduce?

Estoy creando un programa para analizar archivos PDF, DOC y DOCX. Estos archivos se almacenan en HDFS. Cuando comienzo mi trabajo de MapReduce, quiero que la función de mapa tenga el Nombre de archivo como clave y el Contenido binario como ...

java

12 la respuesta

Suficiente Java para Hadoop [cerrado]

He sido desarrollador de C ++ durante aproximadamente 10 años. Necesito elegir Java solo para Hadoop. Dudo que haga algo más en Java. Entonces, me gustaría una lista de cosas que necesitaría recoger. Por supuesto, necesitaría aprender el idioma ...

apache-pig

2 la respuesta

¿Cómo manejas los archivos de entrada vacíos o faltantes en Apache Pig?

Nuestro flujo de trabajo utiliza un mapa elástico de AWS que reduce el clúster para ejecutar una serie de trabajos de Pig para manipular una gran cantidad de datos en informes agregados. Desafortunadamente, los datos de entrada son potencialmente ...

apache-pig hive

1 la respuesta

Ejecutando consulta Pig sobre los datos almacenados en Hive

Me gustaría saber cómo ejecutar consultas de Pig almacenadas en formato Hive. He configurado Hive para almacenar datos comprimidos (usando este ...

file-io filesystems distributed-system gfs

2 la respuesta

¿Por qué el sistema de archivos Hadoop no admite E / S aleatorias?

Los sistemas de archivos distribuidos que, como Google File System y Hadoop, no admiten E / S aleatorias. (No puede modificar el archivo que se escribió anteriormente. Solo es posible escribir y agregar). ¿Por qué diseñaron un sistema de ...

cluster-analysis k-means mahout

4 la respuesta

Interpretación de salida de mahout clusterdumper

Realicé una prueba de agrupamiento en páginas rastreadas (más de 25,000 documentos; conjunto de datos personales). He hecho un clusterdump: $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txt La ...

mapreduce

5 la respuesta

Cómo arreglar "El intento de tarea_201104251139_0295_r_000006_0 no pudo informar el estado durante 600 segundos".

Escribí un trabajo de mapreduce para extraer información de un conjunto de datos. El conjunto de datos es la calificación de los usuarios sobre películas. El número de usuarios es de aproximadamente 250K y el número de películas es ...

3 la respuesta

Demasiadas fallas de recuperación: Hadoop en el clúster (x2)

He estado usando Hadoop durante la última semana más o menos (tratando de entenderlo), y aunque he podido configurar un clúster multinodo (2 máquinas: 1 computadora portátil y un escritorio pequeño) y recuperar los resultados, Parece que siempre ...

java iterator

10 la respuesta

Iterate dos veces en valores (MapReduce)

Recibo un iterador como argumento y me gustaría repetir dos veces los valores. public void reduce(Pair<String,String> key, Iterator<IntWritable> values, Context context)Es posible ? Cómo ? La firma la impone el marco que estoy usando (es decir, ...

Página 81 de 90

79 808182 83

Resultados de la búsqueda a petición "hadoop"

Lectura programática de la salida del programa Hadoop Mapreduce

¿Cómo obtener Nombre de archivo / Contenido de archivo como entrada de clave / valor para MAP cuando se ejecuta un trabajo de Hadoop MapReduce?

Suficiente Java para Hadoop [cerrado]

Etiquetas Populares

¿Cómo manejas los archivos de entrada vacíos o faltantes en Apache Pig?

Ejecutando consulta Pig sobre los datos almacenados en Hive

¿Por qué el sistema de archivos Hadoop no admite E / S aleatorias?

Interpretación de salida de mahout clusterdumper

Cómo arreglar "El intento de tarea_201104251139_0295_r_000006_0 no pudo informar el estado durante 600 segundos".

Demasiadas fallas de recuperación: Hadoop en el clúster (x2)

Iterate dos veces en valores (MapReduce)

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "hadoop"

Etiquetas Populares