Resultados de la búsqueda a petición "hadoop"
eliminar carpetas de particiones en hdfs anteriores a N días
Quiero eliminar las carpetas de partición que tienen más de N días. El siguiente comando muestra las carpetas que son exactamente hace 50 días. Quiero la lista de todas las carpetas que tienen menos de 50 días. hadoop fs -ls ...
Spark sin Hadoop: no se pudo iniciar
Estoy ejecutando Spark 2.1.0, Hive 2.1.1 y Hadoop 2.7.3 en Ubuntu 16.04. Descargo el proyecto Spark de github y construyo la versión "sin hadoop": ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn, proporcionado por hadoop, ...
Cómo resolver el problema de dependencia de Guava al enviar Uber Jar a Google Dataproc
Estoy usando el complemento de sombra maven para compilar Uber jar para enviarlo como un trabajo al clúster de google dataproc. Google ha instalado Apache Spark 2.0.2 Apache Hadoop 2.7.3 en su clúster. Apache spark 2.0.2 usa 14.0.1 de ...
Derrame de Hadoop
Actualmente estoy trabajando en un proyecto usando Hadoop 0.21.0, 985326 y un grupo de 6 nodos de trabajo y un nodo principal. El envío de un trabajo de reducción de mapas regular falla, pero no tengo idea de por qué. ¿Alguien ha visto esta ...
Copie archivos (config) de HDFS al directorio de trabajo local de cada ejecutor de chispa
Estoy buscando cómo copiar una carpeta con archivos de dependencias de recursos de HDFS a un directorio de trabajo local de cada ejecutor de chispa usando Java. Al principio estaba pensando en usar la opción --files FILES de spark-submit pero ...
Cuando se ejecuta con 'hilo' maestro, HADOOP_CONF_DIR o YARN_CONF_DIR deben configurarse en el entorno
Estoy tratando de ejecutar Spark usando hilo y me encuentro con este error: Excepción en el subproceso "main" java.lang.Exception: cuando se ejecuta con 'yarn' maestro, HADOOP_CONF_DIR o YARN_CONF_DIR deben establecerse en el entorno. No estoy ...
¿Cuál es la diferencia entre spark.sql.shuffle.partitions y spark.default.parallelism?
Cuál es la diferencia entrespark.sql.shuffle.partitions yspark.default.parallelism? He tratado de ponerlos a ambos enSparkSQL, pero el número de tarea de la segunda etapa es siempre 200.
Error de Kerberos al conectarse a impala y hbase
Estamos desarrollando una aplicación web que interactúa con componentes hadoop como HDFS, HBase e Impala. El clúster está kerberizado, nos estamos autenticando con la configuración JAAS. Estamos configurando JAAS en argumentos de VM como ...
Cómo configurar una variable de entorno personalizada en EMR para que esté disponible para una aplicación de chispa
Necesito establecer una variable de entorno personalizada en EMR para que esté disponible al ejecutar una aplicación de chispa. He intentado agregar esto: ... --configurations '[ { "Classification": "spark-env", "Configurations": [ ...
Eliminar archivos de más de 10 días en HDFS
¿Hay alguna forma de eliminar archivos de más de 10 días en HDFS? En Linux usaría: find /path/to/directory/ -type f -mtime +10 -name '*.txt' -execdir rm -- {} \; ¿Hay alguna manera de hacer esto en HDFS? (La eliminación se realizará según ...