Resultados de la búsqueda a petición "emr"

1 la respuesta

Flujo de aire: instancia de tarea en operador EMR

En Airflow, me enfrento al problema que necesito para pasar eljob_flow_id a uno de mis pasos emr. Soy capaz de recuperar eljob_flow_id del operador, pero cuando voy a crear los pasos para enviar al clúster, eltask_instance El valor no ...

1 la respuesta

collect () o toPandas () en un gran DataFrame en pyspark / EMR

Tengo un clúster EMR de una máquina "c3.8xlarge", después de leer varios recursos, entendí que tengo que permitir una cantidad decente de memoria fuera del montón porque estoy usando pyspark, así que configuré el clúster de la siguiente ...

2 la respuesta

Cómo instalar una GUI en Amazon AWS EC2 o EMR con Amazon AMI

Necesito ejecutar una aplicación que requiera una interfaz GUI para iniciar y configurar. También necesito poder ejecutar esta aplicación en el servicio EC2 de Amazon y el servicio EMR. El requisito de EMR significa que debe ejecutarse en Linux ...

1 la respuesta

Spark Container & Executor OOMs durante `reduceByKey`

Estoy ejecutando un trabajo de Spark en el EMR de Amazon en modo cliente con YARN, usando pyspark, para procesar datos de dos archivos de entrada (un total de 200 GB) de tamaño. El trabajo une los datos juntos (usandoreduceByKey), hace algunos ...

2 la respuesta

Cómo configurar una variable de entorno personalizada en EMR para que esté disponible para una aplicación de chispa

Necesito establecer una variable de entorno personalizada en EMR para que esté disponible al ejecutar una aplicación de chispa. He intentado agregar esto: ... --configurations '[ { "Classification": "spark-env", "Configurations": [ ...

1 la respuesta

¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?

Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...

2 la respuesta

Apache Spark lee para S3: no puede encurtir objetos thread.lock

Así que quiero que mi aplicación Spark lea algún texto del S3 de Amazon. Escribí el siguiente script simple: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...

2 la respuesta

Impulsar spark.yarn.executor.memoryOverhead

Estoy tratando de ejecutar un trabajo (py) Spark en EMR que procesará una gran cantidad de datos. Actualmente mi trabajo falla con el siguiente mensaje de error: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 ...

6 la respuesta

Problema de guayaba detectado # 1635 que indica que una versión de guayaba inferior a 16.01 está en uso

Estoy ejecutando trabajo de chispa en emr y usando el conector datastax para conectarme al clúster cassandra. Estoy enfrentando problemas con el frasco de guayaba, encuentre los detalles a continuación. Estoy usando los siguientes cassandra ...

1 la respuesta

HILO: ¿Cuál es la diferencia entre el número de ejecutores y los núcleos de ejecutor en Spark?

Estoy aprendiendo Spark en AWS EMR. En el proceso, trato de entender la diferencia entre el número de ejecutores (- num-ejecutores) y los núcleos de ejecutores (- ejecutor-núcleos). ¿Alguien puede decirme aquí? Además, cuando intento enviar el ...