Resultados de la búsqueda a petición "mapreduce"

4 la respuesta

¿Cómo especificar configuraciones mapeadas y opciones de Java con jar personalizado en CLI usando EMR de Amazon?

Me gustaría saber cómo especificar configuraciones de mapreduce como mapred.task.timeout, mapred.min.split.size etc., cuando se ejecuta un trabajo de transmisión mediante un jar personalizado. Podemos usar la siguiente forma para especificar ...

8 la respuesta

Entradas múltiples con MRJob

Estoy tratando de aprender a usar la API de Python de Yelp para MapReduce, MRJob. Su simple ejemplo de contador de palabras tiene sentido, pero tengo curiosidad por saber cómo se manejaría una aplicación que involucra múltiples entradas. Por ...

4 la respuesta

Salida múltiple en reductor

Estoy trabajando en un programa simple de reducción de mapas. Quiero crear diferentes archivos después del reductor para cada palabra diferente en la clave. Por ejemplo, después de ejecutar Mapreduce tengo algo como Prioridad 1 x 2 ...

8 la respuesta

¿Cómo escribir trabajos de hadoop 'solo mapa'?

Soy un novato en hadoop, me estoy familiarizando con el estilo de la programación de reducción de mapas, pero ahora me enfrento a un problema: a veces solo necesito un mapa para un trabajo y solo necesito el resultado del mapa directamente como ...

4 la respuesta

Parcar archivos PDF en Hadoop Map Reduce

Tengo que analizar archivos PDF, que están en HDFS en un programa Map Reduce en Hadoop. Entonces obtengo el archivo PDF de HDFS comoInput splits y debe analizarse y enviarse a la clase Mapper. Para implementar este InputFormat, había pasado por ...

6 la respuesta

Cuáles son los pros y los contras de ejecutar un trabajo en Hadoop usando varios idiomas?

He estado usando Pig o Java para Map Reduce exclusivamente para ejecutar trabajos en un clúster Hadoop hasta ahora. Recientemente probé usando Python Map Reduce a través de la transmisión de Hadoop y eso también fue genial. Todo esto tiene ...

2 la respuesta

¿Cómo puedo dividir una tabla con HIVE?

He estado jugando con Hive durante algunos días, pero aún me cuesta mucho particionar. He estado grabando registros de Apache (formato combinado) en Hadoop durante unos meses. Se almacenan en formato de texto de fila, divididos por fecha ...

4 la respuesta

Combinando dos colecciones en MongoDB

He estado tratando de usar MapReduce en MongoDB para hacer lo que creo que es un procedimiento simple. No sé si este es el enfoque correcto, o si incluso debería estar usando MapReduce. Busqué en Google las palabras clave que pensé e intenté ...

6 la respuesta

identityreducer en la nueva API de Hadoop

Pasé casi un día, pero no pude entender cómo usar IdentityReducer en la nueva API de Hadoop. Todas las referencias o clases que puedo encontrar están con la antigua API. Y, obviamente, mezclar la antigua clase idetntitreducer de API en la nueva ...

12 la respuesta

Llamar a un trabajo de reducción de mapas desde un simple programa java

He estado tratando de llamar a un trabajo mapreduce desde un programa simple de Java en el mismo paquete ... Traté de referir el archivo jar mapreduce en mi programa java y llamarlo usando elrunJar(String args[]) método pasando también las rutas ...