Resultados de la búsqueda a petición "emr"
Spark Container & Executor OOMs durante `reduceByKey`
Estoy ejecutando un trabajo de Spark en el EMR de Amazon en modo cliente con YARN, usando pyspark, para procesar datos de dos archivos de entrada (un total de 200 GB) de tamaño. El trabajo une los datos juntos (usandoreduceByKey), hace algunos ...
Flujo de aire: instancia de tarea en operador EMR
En Airflow, me enfrento al problema que necesito para pasar eljob_flow_id a uno de mis pasos emr. Soy capaz de recuperar eljob_flow_id del operador, pero cuando voy a crear los pasos para enviar al clúster, eltask_instance El valor no ...
¿Cómo usar -libjars en aws emr?
Hay preguntas similares sobre el desbordamiento de la pila, pero ninguna de ellas responde a la pregunta. El problema surge cuando según el siguiente ...
AWS EMR realiza la secuencia de comandos "bootstrap" en todas las máquinas que ya se ejecutan en el clúster
Tengo un clúster EMR que se ejecuta las 24 horas, los 7 días de la semana. No puedo apagarlo y lanzar el nuevo. Lo que me gustaría hacer es realizar algo como la acción de arranque en el clúster que ya se está ejecutando, preferiblemente usando ...
collect () o toPandas () en un gran DataFrame en pyspark / EMR
Tengo un clúster EMR de una máquina "c3.8xlarge", después de leer varios recursos, entendí que tengo que permitir una cantidad decente de memoria fuera del montón porque estoy usando pyspark, así que configuré el clúster de la siguiente ...
Spark: ¿qué tipo de instancia se prefiere para el clúster de AWS EMR? [cerrado]
Estoy ejecutando algunos algoritmos de aprendizaje automático en el clúster EMR Spark. Tengo curiosidad sobre qué tipo de instancia usar para poder obtener el aumento óptimo de costo / rendimiento. Para el mismo nivel de precios, puedo elegir ...
Cómo configurar Zeppelin para que funcione con el clúster remoto de hilos EMR
Tengo el clúster Amazon EMR Hadoop v2.6 con Spark 1.4.1, con el administrador de recursos Yarn. Quiero implementar Zeppelin en una máquina separada para permitir apagar el clúster EMR cuando no hay trabajos en ejecución. Traté de seguir las ...
en Amazon EMR 4.0.0, configurar /etc/spark/conf/spark-env.conf no es efectivo
Estoy lanzando mi hiveserver2 basado en chispas en Amazon EMR, que tiene una dependencia de classpath adicional. Debido a este error en Amazon ...
¿Por qué Yarn en EMR no asigna todos los nodos para ejecutar trabajos de Spark?
Estoy ejecutando un trabajo en Apache Spark en Amazon Elastic Map Reduce (EMR). Actualmente estoy ejecutando emr-4.1.0 que incluye Amazon Hadoop 2.6.0 y Spark 1.5.0. Cuando comienzo el trabajo, YARN ha asignado correctamente todos los nodos ...
Error de trabajo de chispa: YarnAllocator: estado de salida: -100. Diagnóstico: Contenedor lanzado en un nodo * perdido *
Estoy ejecutando un trabajo en AWS-EMR 4.1, Spark 1.5 con la siguiente configuración: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...