Resultados de la búsqueda a petición "hadoop"

2 la respuesta

eliminar carpetas de particiones en hdfs anteriores a N días

Quiero eliminar las carpetas de partición que tienen más de N días. El siguiente comando muestra las carpetas que son exactamente hace 50 días. Quiero la lista de todas las carpetas que tienen menos de 50 días. hadoop fs -ls ...

1 la respuesta

Spark sin Hadoop: no se pudo iniciar

Estoy ejecutando Spark 2.1.0, Hive 2.1.1 y Hadoop 2.7.3 en Ubuntu 16.04. Descargo el proyecto Spark de github y construyo la versión "sin hadoop": ./dev/make-distribution.sh --name "hadoop2-without-hive" --tgz "-Pyarn, proporcionado por hadoop, ...

1 la respuesta

Cómo resolver el problema de dependencia de Guava al enviar Uber Jar a Google Dataproc

Estoy usando el complemento de sombra maven para compilar Uber jar para enviarlo como un trabajo al clúster de google dataproc. Google ha instalado Apache Spark 2.0.2 Apache Hadoop 2.7.3 en su clúster. Apache spark 2.0.2 usa 14.0.1 de ...

2 la respuesta

Derrame de Hadoop

Actualmente estoy trabajando en un proyecto usando Hadoop 0.21.0, 985326 y un grupo de 6 nodos de trabajo y un nodo principal. El envío de un trabajo de reducción de mapas regular falla, pero no tengo idea de por qué. ¿Alguien ha visto esta ...

0 la respuesta

Copie archivos (config) de HDFS al directorio de trabajo local de cada ejecutor de chispa

Estoy buscando cómo copiar una carpeta con archivos de dependencias de recursos de HDFS a un directorio de trabajo local de cada ejecutor de chispa usando Java. Al principio estaba pensando en usar la opción --files FILES de spark-submit pero ...

1 la respuesta

Cuando se ejecuta con 'hilo' maestro, HADOOP_CONF_DIR o YARN_CONF_DIR deben configurarse en el entorno

Estoy tratando de ejecutar Spark usando hilo y me encuentro con este error: Excepción en el subproceso "main" java.lang.Exception: cuando se ejecuta con 'yarn' maestro, HADOOP_CONF_DIR o YARN_CONF_DIR deben establecerse en el entorno. No estoy ...

2 la respuesta

¿Cuál es la diferencia entre spark.sql.shuffle.partitions y spark.default.parallelism?

Cuál es la diferencia entrespark.sql.shuffle.partitions yspark.default.parallelism? He tratado de ponerlos a ambos enSparkSQL, pero el número de tarea de la segunda etapa es siempre 200.

1 la respuesta

Error de Kerberos al conectarse a impala y hbase

Estamos desarrollando una aplicación web que interactúa con componentes hadoop como HDFS, HBase e Impala. El clúster está kerberizado, nos estamos autenticando con la configuración JAAS. Estamos configurando JAAS en argumentos de VM como ...

2 la respuesta

Cómo configurar una variable de entorno personalizada en EMR para que esté disponible para una aplicación de chispa

Necesito establecer una variable de entorno personalizada en EMR para que esté disponible al ejecutar una aplicación de chispa. He intentado agregar esto: ... --configurations '[ { "Classification": "spark-env", "Configurations": [ ...

3 la respuesta

Eliminar archivos de más de 10 días en HDFS

¿Hay alguna forma de eliminar archivos de más de 10 días en HDFS? En Linux usaría: find /path/to/directory/ -type f -mtime +10 -name '*.txt' -execdir rm -- {} \; ¿Hay alguna manera de hacer esto en HDFS? (La eliminación se realizará según ...