Resultados de la búsqueda a petición "emr"
AWS EMR realiza la secuencia de comandos "bootstrap" en todas las máquinas que ya se ejecutan en el clúster
Tengo un clúster EMR que se ejecuta las 24 horas, los 7 días de la semana. No puedo apagarlo y lanzar el nuevo. Lo que me gustaría hacer es realizar algo como la acción de arranque en el clúster que ya se está ejecutando, preferiblemente usando ...
HILO: ¿Cuál es la diferencia entre el número de ejecutores y los núcleos de ejecutor en Spark?
Estoy aprendiendo Spark en AWS EMR. En el proceso, trato de entender la diferencia entre el número de ejecutores (- num-ejecutores) y los núcleos de ejecutores (- ejecutor-núcleos). ¿Alguien puede decirme aquí? Además, cuando intento enviar el ...
Cómo configurar Zeppelin para que funcione con el clúster remoto de hilos EMR
Tengo el clúster Amazon EMR Hadoop v2.6 con Spark 1.4.1, con el administrador de recursos Yarn. Quiero implementar Zeppelin en una máquina separada para permitir apagar el clúster EMR cuando no hay trabajos en ejecución. Traté de seguir las ...
Problema de guayaba detectado # 1635 que indica que una versión de guayaba inferior a 16.01 está en uso
Estoy ejecutando trabajo de chispa en emr y usando el conector datastax para conectarme al clúster cassandra. Estoy enfrentando problemas con el frasco de guayaba, encuentre los detalles a continuación. Estoy usando los siguientes cassandra ...
collect () o toPandas () en un gran DataFrame en pyspark / EMR
Tengo un clúster EMR de una máquina "c3.8xlarge", después de leer varios recursos, entendí que tengo que permitir una cantidad decente de memoria fuera del montón porque estoy usando pyspark, así que configuré el clúster de la siguiente ...
Flujo de aire: instancia de tarea en operador EMR
En Airflow, me enfrento al problema que necesito para pasar eljob_flow_id a uno de mis pasos emr. Soy capaz de recuperar eljob_flow_id del operador, pero cuando voy a crear los pasos para enviar al clúster, eltask_instance El valor no ...
¿Cómo lee MapReduce de varios archivos de entrada?
Estoy desarrollando un código para leer datos y escribirlos en
Error de trabajo de chispa: YarnAllocator: estado de salida: -100. Diagnóstico: Contenedor lanzado en un nodo * perdido *
Estoy ejecutando un trabajo en AWS-EMR 4.1, Spark 1.5 con la siguiente configuración: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...
Spark: ¿qué tipo de instancia se prefiere para el clúster de AWS EMR? [cerrado]
Estoy ejecutando algunos algoritmos de aprendizaje automático en el clúster EMR Spark. Tengo curiosidad sobre qué tipo de instancia usar para poder obtener el aumento óptimo de costo / rendimiento. Para el mismo nivel de precios, puedo elegir ...