Resultados de la búsqueda a petición "hadoop"
Concat campos de una sola columna usando GROUP BY
¿Hay alguna forma de combinar / concat los campos dentro de una columna agrupándolos? P.ej: col1 col2 1 aa 1 bb 1 cc 2 dd 2 eeQuiero consultar algo como: select col1, concat(col2) from tableName group by col1;La salida debe ser: 1 aa,bb,cc 2 ...
Cómo leer archivos gz en Spark usando wholeTextFiles
Tengo una carpeta que contiene muchos archivos .gz pequeños (archivos de texto csv comprimidos). Necesito leerlos en mi trabajo de Spark, pero la cuestión es que necesito hacer un procesamiento basado en la información que está en el nombre del ...
Usando elasticsearch como repositorio central de datos
Actualmente estamos utilizando Elasticsearch para indexar y realizar búsquedas en aproximadamente 10 millones de documentos. Funciona bien y estamos contentos con su rendimiento. Mi colega que inició el uso de Elasticsearch está convencido de que ...
Hbase gestionó el zookeeper de repente tratando de conectarse al localhost en lugar del quórum zookeeper
Estaba ejecutando algunas pruebas con mapeadores de tablas y reductores en problemas a gran escala. Después de cierto punto, mis reductores comenzaron a fallar cuando el trabajo estaba hecho al 80%. Por lo que puedo decir al mirar los syslogs, el ...
Apache Spark: la cantidad de núcleos frente a la cantidad de ejecutores
Estoy tratando de entender la relación entre la cantidad de núcleos y la cantidad de ejecutores cuando se ejecuta un trabajo de Spark en YARN. El entorno de prueba es el siguiente: Número de nodos de datos: 3Especificaciones de la máquina del ...
El campo obligatorio 'client_protocol' no está establecido
Estoy usando Hive 0.12, y estoy probando el JDBC de apache. Cuando intento ejecutar el código, obtengo apache.thrift.TApplicationException. import java.sql.SQLException; import java.sql.Connection; import java.sql.ResultSet; import ...
¿Se ordena siempre la salida de la fase de mapa del trabajo mapreduce?
Estoy un poco confundido con el resultado que obtengo de Mapper. Por ejemplo, cuando ejecuto un programa simple de conteo de palabras, con este texto de entrada: hello world Hadoop programming mapreduce wordcount lets see if this works 12345678 ...
¿Cómo usar hbase con Spring Boot usando Java en lugar de XML?
Tengo Spring Boot Hadoop y quiero aprovechar Spring HbaseTemplate. Mi problema es que la documentación solo tiene información sobre la forma "xml" de la configuración y configuración. ¿Cómo y dónde defino mi configuración para la configuración ...
No se puede conectar a HDFS usando el paso PDI
He configurado con éxitoHadoop 2.4en unUbuntu 14.04 VMa partir de unaWindows 8 sistema. La instalación de Hadoop funciona absolutamente bien y también puedo ver el Namenode desde mi navegador de Windows. Imagen adjunta a ...
Encadenamiento de múltiples trabajos MapReduce en Hadoop
En muchas situaciones de la vida real en las que aplica MapReduce, los algoritmos finales terminan siendo varios pasos de MapReduce. es decir, Mapa1, Reducir1, Mapa2, Reducir2, etc. Entonces tiene la salida de la última reducción que se ...