Resultados de la búsqueda a petición "mapreduce"
¿Qué es el archivo de secuencia en hadoop?
Soy nuevo en Map-reduce y quiero entender qué es la entrada de datos del archivo de secuencia. Estudié en el libro de Hadoop, pero me fue difícil de entender.
Oozie: ¿Lanzar Mapa-Reducir desde la acción Ojazie <java>?
Estoy tratando de ejecutar una tarea Map-Reduce en un flujo de trabajo de Oozie usando un<java> acción. O'Reilley'sApache Oozie (Islam and Srinivasan 2015) señala que: Si bien no se recomienda, la acción de Java se puede utilizar para ...
Número predeterminado de reductores
En Hadoop, si no hemos establecido el número de reductores, ¿cuántos número de reductores se crearán? Igual número de mapeadores depende de(tamaño total de datos) / (tamaño dividido de entrada), P.ej. si el tamaño de los datos es de 1 TB y el ...
iterador de manupulación en mapreduce
Estoy tratando de encontrar la suma de cualquier punto dado usando hadoop. El problema que tengo es obtener todos los valores de una clave dada en un solo reductor. Se parece a esto. Reductor: public static class Reduce extends MapReduceBase ...
MultipleOutputFormat en hadoop
Soy un novato en Hadoop. Estoy probando el programa Wordcount. Ahora para probar varios archivos de salida, usoMultipleOutputFormat. Este enlace me ayudó a ...
Resultados inesperados en Spark MapReduce
Soy nuevo en Spark y quiero entender cómo se hace MapReduce debajo del capó para asegurarme de que lo uso correctamente.Esta publicación [https://stackoverflow.com/a/32520848/5880417]proporcionó una gran respuesta, pero mis resultados no parecen ...
¿Cómo agrupar mongodb - salida mapReduce?
Tengo una consulta sobre el marco mapReduce en mongodb, por lo que tengo un resultado del par de valores clave de la función mapReduce, ahora quiero ejecutar la consulta en esta salida de mapReduce. Así que estoy usando mapReduce para averiguar ...
Cambiar el prefijo de nombre de archivo de salida para DataFrame.write ()
Los archivos de salida generados a través del método Spark SQL DataFrame.write () comienzan con el prefijo de nombre base "parte". p.ej. DataFrame sample_07 = ...
Ordenar datos grandes usando MapReduce / Hadoop
Estoy leyendo sobre MapReduce y lo siguiente me confunde. Supongamos que tenemos un archivo con 1 millón de entradas (enteros) y queremos ordenarlos usando MapReduce. La forma en que entendí hacer esto es la siguiente: Escribe una función de ...
¿Cómo usar Hadoop Streaming con archivos de secuencia comprimidos con LZO?
Estoy tratando de jugar con el conjunto de datos de Google ngrams usando Elastic Map Reduce de Amazon. Hay un conjunto de datos público enhttp: //aws.amazon.com/datasets/817205614237567 [http://aws.amazon.com/datasets/8172056142375670], y quiero ...