Resultados de la búsqueda a petición "emr"

1 la respuesta

Spark Container & Executor OOMs durante `reduceByKey`

Estoy ejecutando un trabajo de Spark en el EMR de Amazon en modo cliente con YARN, usando pyspark, para procesar datos de dos archivos de entrada (un total de 200 GB) de tamaño. El trabajo une los datos juntos (usandoreduceByKey), hace algunos ...

1 la respuesta

Flujo de aire: instancia de tarea en operador EMR

En Airflow, me enfrento al problema que necesito para pasar eljob_flow_id a uno de mis pasos emr. Soy capaz de recuperar eljob_flow_id del operador, pero cuando voy a crear los pasos para enviar al clúster, eltask_instance El valor no ...

3 la respuesta

¿Cómo usar -libjars en aws emr?

Hay preguntas similares sobre el desbordamiento de la pila, pero ninguna de ellas responde a la pregunta. El problema surge cuando según el siguiente ...

1 la respuesta

AWS EMR realiza la secuencia de comandos "bootstrap" en todas las máquinas que ya se ejecutan en el clúster

Tengo un clúster EMR que se ejecuta las 24 horas, los 7 días de la semana. No puedo apagarlo y lanzar el nuevo. Lo que me gustaría hacer es realizar algo como la acción de arranque en el clúster que ya se está ejecutando, preferiblemente usando ...

1 la respuesta

collect () o toPandas () en un gran DataFrame en pyspark / EMR

Tengo un clúster EMR de una máquina "c3.8xlarge", después de leer varios recursos, entendí que tengo que permitir una cantidad decente de memoria fuera del montón porque estoy usando pyspark, así que configuré el clúster de la siguiente ...

2 la respuesta

Spark: ¿qué tipo de instancia se prefiere para el clúster de AWS EMR? [cerrado]

Estoy ejecutando algunos algoritmos de aprendizaje automático en el clúster EMR Spark. Tengo curiosidad sobre qué tipo de instancia usar para poder obtener el aumento óptimo de costo / rendimiento. Para el mismo nivel de precios, puedo elegir ...

0 la respuesta

Cómo configurar Zeppelin para que funcione con el clúster remoto de hilos EMR

Tengo el clúster Amazon EMR Hadoop v2.6 con Spark 1.4.1, con el administrador de recursos Yarn. Quiero implementar Zeppelin en una máquina separada para permitir apagar el clúster EMR cuando no hay trabajos en ejecución. Traté de seguir las ...

2 la respuesta

en Amazon EMR 4.0.0, configurar /etc/spark/conf/spark-env.conf no es efectivo

Estoy lanzando mi hiveserver2 basado en chispas en Amazon EMR, que tiene una dependencia de classpath adicional. Debido a este error en Amazon ...

1 la respuesta

¿Por qué Yarn en EMR no asigna todos los nodos para ejecutar trabajos de Spark?

Estoy ejecutando un trabajo en Apache Spark en Amazon Elastic Map Reduce (EMR). Actualmente estoy ejecutando emr-4.1.0 que incluye Amazon Hadoop 2.6.0 y Spark 1.5.0. Cuando comienzo el trabajo, YARN ha asignado correctamente todos los nodos ...

0 la respuesta

Error de trabajo de chispa: YarnAllocator: estado de salida: -100. Diagnóstico: Contenedor lanzado en un nodo * perdido *

Estoy ejecutando un trabajo en AWS-EMR 4.1, Spark 1.5 con la siguiente configuración: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...