Resultados de la búsqueda a petición "hadoop"

6 la respuesta

Error de trabajo de transmisión de Hadoop en Python

Deesta guia [http://www.michael-noll.com/tutorials/writing-an-hadoop-mapreduce-program-in-python/#running-the-python-code-on-hadoop] , Ejecuté con éxito el ejercicio de muestra. Pero al ejecutar mi trabajo de mapreduce, obtengo el siguiente ...

1 la respuesta

¿Por qué un trabajo de mapa solo en la colmena da como resultado un solo archivo de salida

Cuando ejecuto la siguiente consulta, obtengo solo un archivo como salida, aunque tengo 8 mapeadores y 0 reductores. create table table_2 as select * from table_1.Se invocan 8 mapeadores y no hay fase reductora. Solo hay un archivo en la ...

4 la respuesta

Apache Spark: obtenga el número de registros por partición

Quiero comprobar cómo podemos obtener información sobre cada partición, como el número total. de registros en cada partición en el lado del controlador cuando el trabajo de Spark se envía con el modo de implementación como un clúster de hilo para ...

1 la respuesta

MapReduce ordenar por valor en orden descendente

Estoy tratando de escribir en pseudocódigo una tarea MapReduce que devuelve los elementos ordenados en orden descendente. Por ejemplo: para la tarea de conteo de palabras, en lugar de obtener: apple 1 banana 3 mango 2Quiero que la salida ...

1 la respuesta

Al usar Hadoop por primera vez, el trabajo MapReduce no se ejecuta Reducir fase

Escribí un trabajo de reducción de mapa simple que leería datos del DFS y ejecutaría un algoritmo simple en él. Cuando traté de depurarlo, decidí simplemente hacer que los mapeadores produjeran un solo conjunto de claves y valores, y los ...

3 la respuesta

¿Por qué verificar si un archivo existe en hadoop causa una NullPointerException?

Estoy tratando de crear o abrir un archivo para almacenar algo de salida en HDFS, pero obtengo una NullPointerException cuando llamo alexists método en la penúltima línea del fragmento de código a continuación: DistributedFileSystem dfs = new ...

1 la respuesta

Cómo reiniciar una tarea fallida en Airflow

Estoy usando unFiscal localy mi dag tiene3 tareasdonde la tarea (C) depende de la tarea (A). La tarea (B) y la tarea (A) pueden ejecutarse en paralelo, algo como a continuación A -> C B Entonces la tarea (A) ha falladoy perola tarea (B) ...

3 la respuesta

Hadoop en el servidor de Windows

Estoy pensando en usar hadoop para procesar archivos de texto grandes en mis servidores Windows 2003 existentes (alrededor de 10 máquinas de cuatro núcleos con 16 gb de RAM) Las preguntas son: ¿Hay algún buen tutorial sobre cómo configurar un ...

2 la respuesta

¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark?

¿Es posible leer archivos pdf / audio / video (datos no estructurados) usando Apache Spark? Por ejemplo, tengo miles de facturas en pdf y quiero leer datos de ellas y realizar algunos análisis sobre eso. ¿Qué pasos debo hacer para procesar datos ...

2 la respuesta

¿Cómo eliminar registros duplicados de la tabla Hive?

Estoy tratando de aprender a eliminar registros duplicados de una tabla de Hive. Mi tabla Hive: 'dynpart' con columnas: Id, Nombre, Tecnología Id Name Technology 1 Abcd Hadoop 2 Efgh Java 3 Ijkl MainFrames 2 Efgh Java Tenemos opciones como ...