Resultados de la búsqueda a petición "emr"

1 la respuesta

AWS EMR realiza la secuencia de comandos "bootstrap" en todas las máquinas que ya se ejecutan en el clúster

Tengo un clúster EMR que se ejecuta las 24 horas, los 7 días de la semana. No puedo apagarlo y lanzar el nuevo. Lo que me gustaría hacer es realizar algo como la acción de arranque en el clúster que ya se está ejecutando, preferiblemente usando ...

1 la respuesta

HILO: ¿Cuál es la diferencia entre el número de ejecutores y los núcleos de ejecutor en Spark?

Estoy aprendiendo Spark en AWS EMR. En el proceso, trato de entender la diferencia entre el número de ejecutores (- num-ejecutores) y los núcleos de ejecutores (- ejecutor-núcleos). ¿Alguien puede decirme aquí? Además, cuando intento enviar el ...

0 la respuesta

Cómo configurar Zeppelin para que funcione con el clúster remoto de hilos EMR

Tengo el clúster Amazon EMR Hadoop v2.6 con Spark 1.4.1, con el administrador de recursos Yarn. Quiero implementar Zeppelin en una máquina separada para permitir apagar el clúster EMR cuando no hay trabajos en ejecución. Traté de seguir las ...

6 la respuesta

Problema de guayaba detectado # 1635 que indica que una versión de guayaba inferior a 16.01 está en uso

Estoy ejecutando trabajo de chispa en emr y usando el conector datastax para conectarme al clúster cassandra. Estoy enfrentando problemas con el frasco de guayaba, encuentre los detalles a continuación. Estoy usando los siguientes cassandra ...

1 la respuesta

collect () o toPandas () en un gran DataFrame en pyspark / EMR

Tengo un clúster EMR de una máquina "c3.8xlarge", después de leer varios recursos, entendí que tengo que permitir una cantidad decente de memoria fuera del montón porque estoy usando pyspark, así que configuré el clúster de la siguiente ...

1 la respuesta

Flujo de aire: instancia de tarea en operador EMR

En Airflow, me enfrento al problema que necesito para pasar eljob_flow_id a uno de mis pasos emr. Soy capaz de recuperar eljob_flow_id del operador, pero cuando voy a crear los pasos para enviar al clúster, eltask_instance El valor no ...

2 la respuesta

¿Cómo lee MapReduce de varios archivos de entrada?

Estoy desarrollando un código para leer datos y escribirlos en

4 la respuesta

Demasiados archivos abiertos en EMR

0 la respuesta

Error de trabajo de chispa: YarnAllocator: estado de salida: -100. Diagnóstico: Contenedor lanzado en un nodo * perdido *

Estoy ejecutando un trabajo en AWS-EMR 4.1, Spark 1.5 con la siguiente configuración: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...

2 la respuesta

Spark: ¿qué tipo de instancia se prefiere para el clúster de AWS EMR? [cerrado]

Estoy ejecutando algunos algoritmos de aprendizaje automático en el clúster EMR Spark. Tengo curiosidad sobre qué tipo de instancia usar para poder obtener el aumento óptimo de costo / rendimiento. Para el mismo nivel de precios, puedo elegir ...