Resultados de la búsqueda a petición "amazon-emr"

1 la respuesta

¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?

Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...

3 la respuesta

Tratar con un gran archivo comprimido en Spark

Tengo un gran archivo comprimido (aproximadamente 85 GB comprimido) de s3 que estoy tratando de procesar con Spark en AWS EMR (ahora mismo con una instancia maestra m4.xlarge y dos instancias principales m4.10xlarge cada una con un volumen EBS de ...

2 la respuesta

Ejecución de EMR Spark con varias cuentas S3

Tengo un EMR Spark Job que necesita leer datos de S3 en una cuenta y escribir en otra. Dividí mi trabajo en dos pasos. leer datos del S3 (no se requieren credenciales porque mi clúster EMR está en la misma cuenta). lea los datos en el HDFS ...

1 la respuesta

AWS EMR Mapeadores paralelos?

Estoy tratando de determinar cuántos nodos necesito para mi clúster EMR. Como parte de las mejores prácticas, las recomendaciones son: (Total de mapeadores necesarios para su trabajo + Tiempo necesario para procesar) / (por instancia capacidad + ...

2 la respuesta

Cómo instalar una GUI en Amazon AWS EC2 o EMR con Amazon AMI

Necesito ejecutar una aplicación que requiera una interfaz GUI para iniciar y configurar. También necesito poder ejecutar esta aplicación en el servicio EC2 de Amazon y el servicio EMR. El requisito de EMR significa que debe ejecutarse en Linux ...

3 la respuesta

Evite la creación de _ $ folder $ keys en S3 con hadoop (EMR)

Estoy usando una actividad EMR en la tubería de datos de AWS. Esta actividad de EMR ejecuta un script de colmena en el clúster de EMR. Toma dynamo DB como entrada y almacena datos en S3. Este es el paso EMR utilizado en la actividad ...

2 la respuesta

Cómo iniciar y configurar un clúster EMR usando boto

Estoy tratando de iniciar un clúster y ejecutar un trabajo usando boto. Encuentro muchos ejemplos de creación de flujos de trabajo. Pero no puedo por mi vida, encontrar un ejemplo que muestre: Cómo definir el clúster que se utilizará (por ...

1 la respuesta

AWS EMR realiza la secuencia de comandos "bootstrap" en todas las máquinas que ya se ejecutan en el clúster

Tengo un clúster EMR que se ejecuta las 24 horas, los 7 días de la semana. No puedo apagarlo y lanzar el nuevo. Lo que me gustaría hacer es realizar algo como la acción de arranque en el clúster que ya se está ejecutando, preferiblemente usando ...

1 la respuesta

collect () o toPandas () en un gran DataFrame en pyspark / EMR

Tengo un clúster EMR de una máquina "c3.8xlarge", después de leer varios recursos, entendí que tengo que permitir una cantidad decente de memoria fuera del montón porque estoy usando pyspark, así que configuré el clúster de la siguiente ...

12 la respuesta

El informe de aplicación para application_ (estado: ACEPTADO) nunca termina para Spark Submit (con Spark 1.2.0 en YARN)

Estoy ejecutando la aplicación kinesis plus spark https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html [https://spark.apache.org/docs/1.2.0/streaming-kinesis-integration.html] Estoy corriendo como abajo comando en la instancia ...