Resultados de la búsqueda a petición "apache-spark"

1 la respuesta

¿Cómo puedo mejorar la parte reducebykey de mi aplicación spark?

Tengo 64 núcleos de chispa. Tengo más de 80 millones de filas de datos que ascienden a 4,2 GB en mi clúster cassandra. Ahora necesito 82 segundos para procesar estos datos. Quiero que esto se reduzca a 8 segundos. Tiene alguna idea sobre esto? ...

3 la respuesta

Apache Spark: diferencias entre los modos de implementación de cliente y clúster

TL; DR:En un clúster autónomo de Spark, ¿cuáles son las diferencias entre los modos de implementación de clúster y cliente? ¿Cómo configuro en qué modo se ejecutará mi aplicación? Tenemos un clúster independiente de Spark con tres máquinas, ...

3 la respuesta

Obtenga una lista de tipos de datos del esquema en Apache Spark

Tengo el siguiente código en Spark-Python para obtener la lista de nombres del esquema de un DataFrame, que funciona bien, pero ¿cómo puedo obtener la lista de los tipos de datos? columnNames = df.schema.namesPor ejemplo, algo como: columnTypes ...

2 la respuesta

¿Cómo usar Hadoop InputFormats en Apache Spark?

Tengo una clase

2 la respuesta

Usando futuros dentro de Spark

Un trabajo de Spark crea un servicio web remoto para cada elemento en un RDD. Una implementación simple podría verse así: def webServiceCall(url: String) = scala.io.Source.fromURL(url).mkString rdd2 = rdd1.map(x => webServiceCall(x.field1))(El ...

2 la respuesta

Bluemix spark-submit - Cómo asegurar las credenciales que necesita mi tarro Scala

Tengo una aplicación Spark que estoy enviando al Bluemix Spark Cluster. Se lee desde una base de datos DASHDB y escribe los resultados en Cloudant. El código accede a DASHDB usando Spark y JDBC. El ID de usuario y la contraseña para la base de ...

1 la respuesta

Lista (o iterador) de tuplas devueltas por MAP (PySpark)

Tengo un método mapeador:

1 la respuesta

HILO: ¿Cuál es la diferencia entre el número de ejecutores y los núcleos de ejecutor en Spark?

Estoy aprendiendo Spark en AWS EMR. En el proceso, trato de entender la diferencia entre el número de ejecutores (- num-ejecutores) y los núcleos de ejecutores (- ejecutor-núcleos). ¿Alguien puede decirme aquí? Además, cuando intento enviar el ...

4 la respuesta

Convertir cadena de pyspark a formato de fecha

Tengo un marco de datos de pyspark de fecha con una columna de cadena en el formato deMM-dd-yyyy y estoy intentando convertir esto en una columna de fecha. Lo intenté: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() y obtengo una ...

3 la respuesta

Apache Spark: map vs mapPartitions?