Resultados de la búsqueda a petición "mapreduce"

4 la respuesta

Cómo reducir en una lista de tuplas en python

Tengo una matriz y quiero contar la aparición de cada elemento en la matriz. He logrado usar una función de mapa para producir una lista de tuplas. def mapper(a): return (a, 1) r = list(map(lambda a: mapper(a), arr)); //output example: ...

1 la respuesta

¿Por qué un trabajo de mapa solo en la colmena da como resultado un solo archivo de salida

Cuando ejecuto la siguiente consulta, obtengo solo un archivo como salida, aunque tengo 8 mapeadores y 0 reductores. create table table_2 as select * from table_1.Se invocan 8 mapeadores y no hay fase reductora. Solo hay un archivo en la ...

1 la respuesta

¿Cómo se envían las consultas sql de la colmena como mr job desde hive cli?

He implementado un clúster CDH-5.9 con MR como motor de ejecución de colmena. Tengo una tabla de colmena llamada "usuarios" con 50 filas. Cada vez que ejecuto la consultaselect * from users funciona bien de la siguiente manera: hive> select * ...

1 la respuesta

MapReduce ordenar por valor en orden descendente

Estoy tratando de escribir en pseudocódigo una tarea MapReduce que devuelve los elementos ordenados en orden descendente. Por ejemplo: para la tarea de conteo de palabras, en lugar de obtener: apple 1 banana 3 mango 2Quiero que la salida ...

0 la respuesta

¿Qué hace realmente la fase de barajado?

¿Qué hace realmente la fase de barajado? A) Como barajar es el proceso de llevar el mapeador o / p al reductor o / p, solo trae las teclas específicas de los mapeadores a los reductores particulares basados en el código escrito en el ...

1 la respuesta

cuántos mapeadores y reductores se crearán para una tabla dividida en colmena

Siempre estoy confundido sobre cuántos mapeadores y reductores se crearán para una tarea particular en la colmena. por ejemplo, si el tamaño del bloque = 128 mb y hay 365 archivos cada uno se asigna a una fecha en un año (tamaño del archivo = 1 ...

1 la respuesta

PySpark Cómo leer CSV en Dataframe y manipularlo

Soy bastante nuevo en pyspark y estoy tratando de usarlo para procesar un gran conjunto de datos que se guarda como un archivo csv. Me gustaría leer el archivo CSV en el marco de datos de chispa, soltar algunas columnas y agregar nuevas columnas. ...

1 la respuesta

¿Cómo configurar un reductor para emitir <Texto, IntWritable> y un mapeador para recibir <Texto, IntWritable>?

Estoy desarrollando un código enhadoopconMapa reducidoque usados mapeadores y dos reductores.Me han dicho que useSequenceFileInputFormaty SequenceFileOutputFormatpara hacer que la salida del primer reductor y la entrada del segundo mapeador ...

1 la respuesta

Únete a dos colecciones con MapReduce en MongoDB

Ya sé que MongoDB no admite operaciones de combinación, pero tengo que simular un$lookup (del marco de agregación) con elmapReduce paradigma. Mis dos colecciones son: // Employees sample { "_id" : "1234", "first_name" : "John", "last_name" ...

1 la respuesta

¿Cómo puedo obtener un resultado de mapa / reducción que se ordena en orden descendente del valor de "valor"? Si también se puede lograr eso con la función de lista.

Tengo ver mapa y reducir así: Mapa: function(doc) { if(doc.type){ var usersLength = doc.users.length; for (var i = 0; i < usersLength ; i++) { emit([doc.users[i].userid,doc.Service.ownId], 1); } } }Reducir: function(keys, values, rereduce) { ...