Resultados de la búsqueda a petición "apache-spark"
¿Cómo puedo mejorar la parte reducebykey de mi aplicación spark?
Tengo 64 núcleos de chispa. Tengo más de 80 millones de filas de datos que ascienden a 4,2 GB en mi clúster cassandra. Ahora necesito 82 segundos para procesar estos datos. Quiero que esto se reduzca a 8 segundos. Tiene alguna idea sobre esto? ...
Apache Spark: diferencias entre los modos de implementación de cliente y clúster
TL; DR:En un clúster autónomo de Spark, ¿cuáles son las diferencias entre los modos de implementación de clúster y cliente? ¿Cómo configuro en qué modo se ejecutará mi aplicación? Tenemos un clúster independiente de Spark con tres máquinas, ...
Obtenga una lista de tipos de datos del esquema en Apache Spark
Tengo el siguiente código en Spark-Python para obtener la lista de nombres del esquema de un DataFrame, que funciona bien, pero ¿cómo puedo obtener la lista de los tipos de datos? columnNames = df.schema.namesPor ejemplo, algo como: columnTypes ...
Usando futuros dentro de Spark
Un trabajo de Spark crea un servicio web remoto para cada elemento en un RDD. Una implementación simple podría verse así: def webServiceCall(url: String) = scala.io.Source.fromURL(url).mkString rdd2 = rdd1.map(x => webServiceCall(x.field1))(El ...
Bluemix spark-submit - Cómo asegurar las credenciales que necesita mi tarro Scala
Tengo una aplicación Spark que estoy enviando al Bluemix Spark Cluster. Se lee desde una base de datos DASHDB y escribe los resultados en Cloudant. El código accede a DASHDB usando Spark y JDBC. El ID de usuario y la contraseña para la base de ...
Lista (o iterador) de tuplas devueltas por MAP (PySpark)
Tengo un método mapeador:
HILO: ¿Cuál es la diferencia entre el número de ejecutores y los núcleos de ejecutor en Spark?
Estoy aprendiendo Spark en AWS EMR. En el proceso, trato de entender la diferencia entre el número de ejecutores (- num-ejecutores) y los núcleos de ejecutores (- ejecutor-núcleos). ¿Alguien puede decirme aquí? Además, cuando intento enviar el ...
Convertir cadena de pyspark a formato de fecha
Tengo un marco de datos de pyspark de fecha con una columna de cadena en el formato deMM-dd-yyyy y estoy intentando convertir esto en una columna de fecha. Lo intenté: df.select(to_date(df.STRING_COLUMN).alias('new_date')).show() y obtengo una ...