Resultados de la búsqueda a petición "amazon-emr"

2 la respuesta

Amazon MapReduce mejores prácticas para el análisis de registros

Analizo los registros de acceso generados por Apache, Nginx, Darwin (servidor de transmisión de video) y agrego estadísticas para cada archivo entregado por fecha / referencia / usuario. Toneladas de registros generados cada hora y es probable ...

2 la respuesta

Ejecución de EMR Spark con varias cuentas S3

Tengo un EMR Spark Job que necesita leer datos de S3 en una cuenta y escribir en otra. Dividí mi trabajo en dos pasos. leer datos del S3 (no se requieren credenciales porque mi clúster EMR está en la misma cuenta). lea los datos en el HDFS ...

10 la respuesta

Folder no se eliminará en Amazon S3

Estoy tratando de eliminar una carpeta creada como resultado de un trabajo de MapReduce. Otros archivos en el cubo se eliminan bien, pero esta carpeta no se eliminará. Cuando trato de eliminarlo de la consola, la barra de progreso junto a su ...

1 la respuesta

hadoop copiando de hdfs a S3

He completado con éxito un trabajo de vectorización de mahout en Amazon EMR (usandoMahout en MapReduce Elástico como referencia). Ahora quiero copiar los res...

2 la respuesta

¿Podemos agregar más instancias de Amazon Elastic Mapreduce a las instancias existentes de Amazon Elastic Mapreduce?

Soy nuevo en Amazon Services y me enfrento a algunos problemas.Supongamos que estoy ejecutando un flujo de trabajo en Amazon Elastic Mapreduce con un total d...

1 la respuesta

Hadoop Texttable no separable

2 la respuesta

Guardar el marco de datos en el sistema de archivos local da como resultado resultados vacíos

Estamos ejecutando spark 2.3.0 enAWW EMR. El seguimientoDataFrame "df "no está vacío y tiene un tamaño modesto: scala> df.count res0: Long = 4067 El siguiente código funciona bien para escribirdf ahdfs: scala> val hdf = ...

1 la respuesta

¿Cómo evitar leer archivos antiguos de S3 al agregar datos nuevos?

Una vez cada 2 horas, se está ejecutando el trabajo de chispa para convertir algunos archivos tgz a parquet. El trabajo agrega los nuevos datos a un parquet existente en ...

4 la respuesta

¿Cómo usar Hadoop Streaming con archivos de secuencia comprimidos con LZO?

Estoy tratando de jugar con el conjunto de datos de Google ngrams usando Elastic Map Reduce de Amazon. Hay un conjunto de datos público enhttp: //aws.amazon.com/datasets/817205614237567 [http://aws.amazon.com/datasets/8172056142375670], y quiero ...

1 la respuesta

AWS EMR Mapeadores paralelos?

Estoy tratando de determinar cuántos nodos necesito para mi clúster EMR. Como parte de las mejores prácticas, las recomendaciones son: (Total de mapeadores necesarios para su trabajo + Tiempo necesario para procesar) / (por instancia capacidad + ...