Resultados de la búsqueda a petición "emr"
Flujo de aire: instancia de tarea en operador EMR
En Airflow, me enfrento al problema que necesito para pasar eljob_flow_id a uno de mis pasos emr. Soy capaz de recuperar eljob_flow_id del operador, pero cuando voy a crear los pasos para enviar al clúster, eltask_instance El valor no ...
collect () o toPandas () en un gran DataFrame en pyspark / EMR
Tengo un clúster EMR de una máquina "c3.8xlarge", después de leer varios recursos, entendí que tengo que permitir una cantidad decente de memoria fuera del montón porque estoy usando pyspark, así que configuré el clúster de la siguiente ...
Cómo instalar una GUI en Amazon AWS EC2 o EMR con Amazon AMI
Necesito ejecutar una aplicación que requiera una interfaz GUI para iniciar y configurar. También necesito poder ejecutar esta aplicación en el servicio EC2 de Amazon y el servicio EMR. El requisito de EMR significa que debe ejecutarse en Linux ...
Spark Container & Executor OOMs durante `reduceByKey`
Estoy ejecutando un trabajo de Spark en el EMR de Amazon en modo cliente con YARN, usando pyspark, para procesar datos de dos archivos de entrada (un total de 200 GB) de tamaño. El trabajo une los datos juntos (usandoreduceByKey), hace algunos ...
Cómo configurar una variable de entorno personalizada en EMR para que esté disponible para una aplicación de chispa
Necesito establecer una variable de entorno personalizada en EMR para que esté disponible al ejecutar una aplicación de chispa. He intentado agregar esto: ... --configurations '[ { "Classification": "spark-env", "Configurations": [ ...
¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?
Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...
Apache Spark lee para S3: no puede encurtir objetos thread.lock
Así que quiero que mi aplicación Spark lea algún texto del S3 de Amazon. Escribí el siguiente script simple: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...
Impulsar spark.yarn.executor.memoryOverhead
Estoy tratando de ejecutar un trabajo (py) Spark en EMR que procesará una gran cantidad de datos. Actualmente mi trabajo falla con el siguiente mensaje de error: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 ...
Problema de guayaba detectado # 1635 que indica que una versión de guayaba inferior a 16.01 está en uso
Estoy ejecutando trabajo de chispa en emr y usando el conector datastax para conectarme al clúster cassandra. Estoy enfrentando problemas con el frasco de guayaba, encuentre los detalles a continuación. Estoy usando los siguientes cassandra ...
HILO: ¿Cuál es la diferencia entre el número de ejecutores y los núcleos de ejecutor en Spark?
Estoy aprendiendo Spark en AWS EMR. En el proceso, trato de entender la diferencia entre el número de ejecutores (- num-ejecutores) y los núcleos de ejecutores (- ejecutor-núcleos). ¿Alguien puede decirme aquí? Además, cuando intento enviar el ...