Resultados de la búsqueda a petición "amazon-emr"

4 la respuesta

error avro en AWS EMR

Estoy usando spark-redshift (https://github.com/databricks/spark-redshift [https://github.com/databricks/spark-redshift]) que utiliza avro para la transferencia. Leer de Redshift está bien, mientras escribo me sale Caused by: ...

1 la respuesta

¿Por qué Yarn en EMR no asigna todos los nodos para ejecutar trabajos de Spark?

Estoy ejecutando un trabajo en Apache Spark en Amazon Elastic Map Reduce (EMR). Actualmente estoy ejecutando emr-4.1.0 que incluye Amazon Hadoop 2.6.0 y Spark 1.5.0. Cuando comienzo el trabajo, YARN ha asignado correctamente todos los nodos ...

4 la respuesta

¿Cómo usar Hadoop Streaming con archivos de secuencia comprimidos con LZO?

Estoy tratando de jugar con el conjunto de datos de Google ngrams usando Elastic Map Reduce de Amazon. Hay un conjunto de datos público enhttp: //aws.amazon.com/datasets/817205614237567 [http://aws.amazon.com/datasets/8172056142375670], y quiero ...

2 la respuesta

Guardar el marco de datos en el sistema de archivos local da como resultado resultados vacíos

Estamos ejecutando spark 2.3.0 enAWW EMR. El seguimientoDataFrame "df "no está vacío y tiene un tamaño modesto: scala> df.count res0: Long = 4067 El siguiente código funciona bien para escribirdf ahdfs: scala> val hdf = ...

1 la respuesta

AWS CLI EMR obtiene el ID de instancia del nodo maestro y lo etiqueta

Quiero automatizar la ejecución de un clúster y puedo usar etiquetas para obtener atributos de una instancia de EC2 como su id-instancia. La documentación ...

2 la respuesta

¿Cómo ejecutar 2 EMR Spark Step al mismo tiempo?

Estoy intentando que 2 pasos se ejecuten simultáneamente en EMR. Sin embargo, siempre obtengo el primer paso en ejecución y el segundo pendiente. a parte de mi configuración de hilo es la siguiente: { "Classification": "capacity-scheduler", ...

6 la respuesta

l error @pyspark no existe en el error jvm al inicializar SparkContext

Estoy usando spark over emr y escribiendo un script pyspark, recibo un error al intentar from pyspark import SparkContext sc = SparkContext()este es el error File "pyex.py", line 5, in <module> sc = SparkContext() ...

10 la respuesta

Folder no se eliminará en Amazon S3

Estoy tratando de eliminar una carpeta creada como resultado de un trabajo de MapReduce. Otros archivos en el cubo se eliminan bien, pero esta carpeta no se eliminará. Cuando trato de eliminarlo de la consola, la barra de progreso junto a su ...

2 la respuesta

Amazon MapReduce mejores prácticas para el análisis de registros

Analizo los registros de acceso generados por Apache, Nginx, Darwin (servidor de transmisión de video) y agrego estadísticas para cada archivo entregado por fecha / referencia / usuario. Toneladas de registros generados cada hora y es probable ...