Resultados de la búsqueda a petición "hadoop"
Lectura programática de la salida del programa Hadoop Mapreduce
Esta puede ser una pregunta básica, pero no pude encontrar una respuesta en Google. Tengo un trabajo de reducción de mapas que crea múltiples archivos de salida en su directorio de salida. Mi aplicación Java ejecuta este trabajo en un ...
¿Cómo obtener Nombre de archivo / Contenido de archivo como entrada de clave / valor para MAP cuando se ejecuta un trabajo de Hadoop MapReduce?
Estoy creando un programa para analizar archivos PDF, DOC y DOCX. Estos archivos se almacenan en HDFS. Cuando comienzo mi trabajo de MapReduce, quiero que la función de mapa tenga el Nombre de archivo como clave y el Contenido binario como ...
Suficiente Java para Hadoop [cerrado]
He sido desarrollador de C ++ durante aproximadamente 10 años. Necesito elegir Java solo para Hadoop. Dudo que haga algo más en Java. Entonces, me gustaría una lista de cosas que necesitaría recoger. Por supuesto, necesitaría aprender el idioma ...
¿Cómo manejas los archivos de entrada vacíos o faltantes en Apache Pig?
Nuestro flujo de trabajo utiliza un mapa elástico de AWS que reduce el clúster para ejecutar una serie de trabajos de Pig para manipular una gran cantidad de datos en informes agregados. Desafortunadamente, los datos de entrada son potencialmente ...
Ejecutando consulta Pig sobre los datos almacenados en Hive
Me gustaría saber cómo ejecutar consultas de Pig almacenadas en formato Hive. He configurado Hive para almacenar datos comprimidos (usando este ...
¿Por qué el sistema de archivos Hadoop no admite E / S aleatorias?
Los sistemas de archivos distribuidos que, como Google File System y Hadoop, no admiten E / S aleatorias. (No puede modificar el archivo que se escribió anteriormente. Solo es posible escribir y agregar). ¿Por qué diseñaron un sistema de ...
Interpretación de salida de mahout clusterdumper
Realicé una prueba de agrupamiento en páginas rastreadas (más de 25,000 documentos; conjunto de datos personales). He hecho un clusterdump: $MAHOUT_HOME/bin/mahout clusterdump --seqFileDir output/clusters-1/ --output clusteranalyze.txt La ...
Cómo arreglar "El intento de tarea_201104251139_0295_r_000006_0 no pudo informar el estado durante 600 segundos".
Escribí un trabajo de mapreduce para extraer información de un conjunto de datos. El conjunto de datos es la calificación de los usuarios sobre películas. El número de usuarios es de aproximadamente 250K y el número de películas es ...
Demasiadas fallas de recuperación: Hadoop en el clúster (x2)
He estado usando Hadoop durante la última semana más o menos (tratando de entenderlo), y aunque he podido configurar un clúster multinodo (2 máquinas: 1 computadora portátil y un escritorio pequeño) y recuperar los resultados, Parece que siempre ...
Iterate dos veces en valores (MapReduce)
Recibo un iterador como argumento y me gustaría repetir dos veces los valores. public void reduce(Pair<String,String> key, Iterator<IntWritable> values, Context context)Es posible ? Cómo ? La firma la impone el marco que estoy usando (es decir, ...