Resultados de la búsqueda a petición "rdd"
Qué función en spark se usa para combinar dos RDD por teclas
Digamos que tengo los siguientes dos RDD, con los siguientes valores de pares de claves. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]y rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]Ahora, quiero unirlos por valores ...
¿Cuál es la diferencia entre cache y persistir?
En términos deRDD persistencia, ¿cuáles son las diferencias entrecache() ypersist() en chispa?
Reduzca un par clave-valor en un par clave-lista con Apache Spark
Estoy escribiendo una aplicación Spark y quiero combinar un conjunto de pares clave-valor(K, V1), (K, V2), ..., (K, Vn) en un par clave-valor múltiple(K, [V1, V2, ..., Vn]). Siento que debería poder hacer esto usando elreduceByKey funcionar con ...
Spark: Cómo unir RDD por rango de tiempo
Tengo un delicado problema de Spark, donde simplemente no puedo entenderlo. Tenemos dos RDD (procedentes de Cassandra). RDD1 contieneActions y RDD2 contieneHistoric datos. Ambos tienen una identificación en la que se pueden combinar / unir. Pero ...
¿Cómo compartir Spark RDD entre 2 contextos de Spark?
Tengo un clúster de RMI. Cada servidor RMI tiene un contexto Spark. ¿Hay alguna manera de compartir un RDD entre diferentes contextos de Spark?
Acceso a dependencias disponibles en Scala pero no en PySpark
Estoy tratando de acceder a las dependencias de un RDD. En Scala es un código bastante simple: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy ...
Explicar la funcionalidad agregada en Spark
Estoy buscando una mejor explicación de la funcionalidad agregada que está disponible a través de spark en python. El ejemplo que tengo es el siguiente (usando pyspark de la versión Spark 1.2.0) sc.parallelize([1,2,3,4]).aggregate( (0, 0), ...
Cómo convertir objetos rdd a dataframe en spark
¿Cómo puedo convertir un RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) a un marco de datosorg.apache.spark.sql.DataFrame. Convertí un marco de datos a rdd usando.rdd. Después de procesarlo, lo quiero de vuelta en el marco de ...
Chispa: reste dos marcos de datos
En versión Spark1.2.0 uno podría usarsubtract con 2SchemRDDs para terminar con solo el contenido diferente del primero val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)onlyNewData contiene las filas entodaySchemRDD que no existen ...
Serializing RDD
Tengo un RDD que estoy tratando de serializar y luego reconstruir deserializando. Estoy tratando de ver si esto es posible en Apache Spark. static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance si = ...