Resultados de la búsqueda a petición "emr"
Cómo configurar Zeppelin para que funcione con el clúster remoto de hilos EMR
Tengo el clúster Amazon EMR Hadoop v2.6 con Spark 1.4.1, con el administrador de recursos Yarn. Quiero implementar Zeppelin en una máquina separada para permitir apagar el clúster EMR cuando no hay trabajos en ejecución. Traté de seguir las ...
Error de trabajo de chispa: YarnAllocator: estado de salida: -100. Diagnóstico: Contenedor lanzado en un nodo * perdido *
Estoy ejecutando un trabajo en AWS-EMR 4.1, Spark 1.5 con la siguiente configuración: spark-submit --deploy-mode cluster --master yarn-cluster --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...
hadoop copiando de hdfs a S3
He completado con éxito un trabajo de vectorización de mahout en Amazon EMR (usandoMahout en MapReduce Elástico como referencia). Ahora quiero copiar los res...
AWS EMR realiza la secuencia de comandos "bootstrap" en todas las máquinas que ya se ejecutan en el clúster
Tengo un clúster EMR que se ejecuta las 24 horas, los 7 días de la semana. No puedo apagarlo y lanzar el nuevo. Lo que me gustaría hacer es realizar algo como la acción de arranque en el clúster que ya se está ejecutando, preferiblemente usando ...
¿Por qué Yarn en EMR no asigna todos los nodos para ejecutar trabajos de Spark?
Estoy ejecutando un trabajo en Apache Spark en Amazon Elastic Map Reduce (EMR). Actualmente estoy ejecutando emr-4.1.0 que incluye Amazon Hadoop 2.6.0 y Spark 1.5.0. Cuando comienzo el trabajo, YARN ha asignado correctamente todos los nodos ...
HILO: ¿Cuál es la diferencia entre el número de ejecutores y los núcleos de ejecutor en Spark?
Estoy aprendiendo Spark en AWS EMR. En el proceso, trato de entender la diferencia entre el número de ejecutores (- num-ejecutores) y los núcleos de ejecutores (- ejecutor-núcleos). ¿Alguien puede decirme aquí? Además, cuando intento enviar el ...
¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?
Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...
Spark Container & Executor OOMs durante `reduceByKey`
Estoy ejecutando un trabajo de Spark en el EMR de Amazon en modo cliente con YARN, usando pyspark, para procesar datos de dos archivos de entrada (un total de 200 GB) de tamaño. El trabajo une los datos juntos (usandoreduceByKey), hace algunos ...
collect () o toPandas () en un gran DataFrame en pyspark / EMR
Tengo un clúster EMR de una máquina "c3.8xlarge", después de leer varios recursos, entendí que tengo que permitir una cantidad decente de memoria fuera del montón porque estoy usando pyspark, así que configuré el clúster de la siguiente ...
Flujo de aire: instancia de tarea en operador EMR
En Airflow, me enfrento al problema que necesito para pasar eljob_flow_id a uno de mis pasos emr. Soy capaz de recuperar eljob_flow_id del operador, pero cuando voy a crear los pasos para enviar al clúster, eltask_instance El valor no ...