Resultados de la búsqueda a petición "emr"

En Airflow, me enfrento al problema que necesito para pasar eljob_flow_id a uno de mis pasos emr. Soy capaz de recuperar eljob_flow_id del operador, pero cuando voy a crear los pasos para enviar al clúster, eltask_instance El valor no ...

pandas apache-spark pyspark amazon-emr

1 la respuesta

collect () o toPandas () en un gran DataFrame en pyspark / EMR

Tengo un clúster EMR de una máquina "c3.8xlarge", después de leer varios recursos, entendí que tengo que permitir una cantidad decente de memoria fuera del montón porque estoy usando pyspark, así que configuré el clúster de la siguiente ...

amazon-ec2 amazon-emr xfce

2 la respuesta

Cómo instalar una GUI en Amazon AWS EC2 o EMR con Amazon AMI

Necesito ejecutar una aplicación que requiera una interfaz GUI para iniciar y configurar. También necesito poder ejecutar esta aplicación en el servicio EC2 de Amazon y el servicio EMR. El requisito de EMR significa que debe ejecutarse en Linux ...

memory-management apache-spark pyspark

1 la respuesta

Spark Container & Executor OOMs durante `reduceByKey`

Estoy ejecutando un trabajo de Spark en el EMR de Amazon en modo cliente con YARN, usando pyspark, para procesar datos de dos archivos de entrada (un total de 200 GB) de tamaño. El trabajo une los datos juntos (usandoreduceByKey), hace algunos ...

environment-variables amazon-web-services apache-spark hadoop

2 la respuesta

Cómo configurar una variable de entorno personalizada en EMR para que esté disponible para una aplicación de chispa

Necesito establecer una variable de entorno personalizada en EMR para que esté disponible al ejecutar una aplicación de chispa. He intentado agregar esto: ... --configurations '[ { "Classification": "spark-env", "Configurations": [ ...

amazon-s3 bigdata parquet amazon-emr

1 la respuesta

¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?

Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...

multithreading apache-spark amazon-s3 pyspark

2 la respuesta

Apache Spark lee para S3: no puede encurtir objetos thread.lock

Así que quiero que mi aplicación Spark lea algún texto del S3 de Amazon. Escribí el siguiente script simple: import boto3 s3_client = boto3.client('s3') text_keys = ["key1.txt", "key2.txt"] data = sc.parallelize(text_keys).flatMap(lambda ...

pyspark amazon-web-services apache-spark amazon-emr

2 la respuesta

Impulsar spark.yarn.executor.memoryOverhead

Estoy tratando de ejecutar un trabajo (py) Spark en EMR que procesará una gran cantidad de datos. Actualmente mi trabajo falla con el siguiente mensaje de error: Reason: Container killed by YARN for exceeding memory limits. 5.5 GB of 5.5 ...

guava apache-spark datastax

6 la respuesta

Problema de guayaba detectado # 1635 que indica que una versión de guayaba inferior a 16.01 está en uso

Estoy ejecutando trabajo de chispa en emr y usando el conector datastax para conectarme al clúster cassandra. Estoy enfrentando problemas con el frasco de guayaba, encuentre los detalles a continuación. Estoy usando los siguientes cassandra ...

apache-spark yarn

1 la respuesta

HILO: ¿Cuál es la diferencia entre el número de ejecutores y los núcleos de ejecutor en Spark?

Estoy aprendiendo Spark en AWS EMR. En el proceso, trato de entender la diferencia entre el número de ejecutores (- num-ejecutores) y los núcleos de ejecutores (- ejecutor-núcleos). ¿Alguien puede decirme aquí? Además, cuando intento enviar el ...

Página 1 de 3

12 3

Resultados de la búsqueda a petición "emr"

Flujo de aire: instancia de tarea en operador EMR

collect () o toPandas () en un gran DataFrame en pyspark / EMR

Cómo instalar una GUI en Amazon AWS EC2 o EMR con Amazon AMI

Etiquetas Populares

Spark Container & Executor OOMs durante `reduceByKey`

Cómo configurar una variable de entorno personalizada en EMR para que esté disponible para una aplicación de chispa

¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?

Apache Spark lee para S3: no puede encurtir objetos thread.lock

Impulsar spark.yarn.executor.memoryOverhead

Problema de guayaba detectado # 1635 que indica que una versión de guayaba inferior a 16.01 está en uso

HILO: ¿Cuál es la diferencia entre el número de ejecutores y los núcleos de ejecutor en Spark?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "emr"

Etiquetas Populares