Resultados de la búsqueda a petición "amazon-emr"

Estoy usando spark-redshift (https://github.com/databricks/spark-redshift [https://github.com/databricks/spark-redshift]) que utiliza avro para la transferencia. Leer de Redshift está bien, mientras escribo me sale Caused by: ...

yarn emr apache-spark elastic-map-reduce

1 la respuesta

¿Por qué Yarn en EMR no asigna todos los nodos para ejecutar trabajos de Spark?

Estoy ejecutando un trabajo en Apache Spark en Amazon Elastic Map Reduce (EMR). Actualmente estoy ejecutando emr-4.1.0 que incluye Amazon Hadoop 2.6.0 y Spark 1.5.0. Cuando comienzo el trabajo, YARN ha asignado correctamente todos los nodos ...

hadoop mapreduce

4 la respuesta

¿Cómo usar Hadoop Streaming con archivos de secuencia comprimidos con LZO?

Estoy tratando de jugar con el conjunto de datos de Google ngrams usando Elastic Map Reduce de Amazon. Hay un conjunto de datos público enhttp: //aws.amazon.com/datasets/817205614237567 [http://aws.amazon.com/datasets/8172056142375670], y quiero ...

apache-spark

2 la respuesta

Guardar el marco de datos en el sistema de archivos local da como resultado resultados vacíos

Estamos ejecutando spark 2.3.0 enAWW EMR. El seguimientoDataFrame "df "no está vacío y tiene un tamaño modesto: scala> df.count res0: Long = 4067 El siguiente código funciona bien para escribirdf ahdfs: scala> val hdf = ...

amazon-web-services aws-cli

1 la respuesta

AWS CLI EMR obtiene el ID de instancia del nodo maestro y lo etiqueta

Quiero automatizar la ejecución de un clúster y puedo usar etiquetas para obtener atributos de una instancia de EC2 como su id-instancia. La documentación ...

apache-spark yarn

2 la respuesta

¿Cómo ejecutar 2 EMR Spark Step al mismo tiempo?

Estoy intentando que 2 pasos se ejecuten simultáneamente en EMR. Sin embargo, siempre obtengo el primer paso en ejecución y el segundo pendiente. a parte de mi configuración de hilo es la siguiente: { "Classification": "capacity-scheduler", ...

python-3.x apache-spark python pyspark

6 la respuesta

l error @pyspark no existe en el error jvm al inicializar SparkContext

Estoy usando spark over emr y escribiendo un script pyspark, recibo un error al intentar from pyspark import SparkContext sc = SparkContext()este es el error File "pyex.py", line 5, in <module> sc = SparkContext() ...

amazon-s3 amazon-web-services

10 la respuesta

Folder no se eliminará en Amazon S3

Estoy tratando de eliminar una carpeta creada como resultado de un trabajo de MapReduce. Otros archivos en el cubo se eliminan bien, pero esta carpeta no se eliminará. Cuando trato de eliminarlo de la consola, la barra de progreso junto a su ...

hadoop logging amazon-s3 hadoop-streaming

2 la respuesta

Amazon MapReduce mejores prácticas para el análisis de registros

Analizo los registros de acceso generados por Apache, Nginx, Darwin (servidor de transmisión de video) y agrego estadísticas para cada archivo entregado por fecha / referencia / usuario. Toneladas de registros generados cada hora y es probable ...

Página 3 de 3

1 23

Resultados de la búsqueda a petición "amazon-emr"

error avro en AWS EMR

¿Por qué Yarn en EMR no asigna todos los nodos para ejecutar trabajos de Spark?

¿Cómo usar Hadoop Streaming con archivos de secuencia comprimidos con LZO?

Etiquetas Populares

Guardar el marco de datos en el sistema de archivos local da como resultado resultados vacíos

AWS CLI EMR obtiene el ID de instancia del nodo maestro y lo etiqueta

¿Cómo ejecutar 2 EMR Spark Step al mismo tiempo?

l error @pyspark no existe en el error jvm al inicializar SparkContext

Folder no se eliminará en Amazon S3

Amazon MapReduce mejores prácticas para el análisis de registros

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "amazon-emr"

Etiquetas Populares