Resultados de la búsqueda a petición "rdd"

2 la respuesta

Qué función en spark se usa para combinar dos RDD por teclas

Digamos que tengo los siguientes dos RDD, con los siguientes valores de pares de claves. rdd1 = [ (key1, [value1, value2]), (key2, [value3, value4]) ]y rdd2 = [ (key1, [value5, value6]), (key2, [value7]) ]Ahora, quiero unirlos por valores ...

4 la respuesta

¿Cuál es la diferencia entre cache y persistir?

En términos deRDD persistencia, ¿cuáles son las diferencias entrecache() ypersist() en chispa?

9 la respuesta

Reduzca un par clave-valor en un par clave-lista con Apache Spark

Estoy escribiendo una aplicación Spark y quiero combinar un conjunto de pares clave-valor(K, V1), (K, V2), ..., (K, Vn) en un par clave-valor múltiple(K, [V1, V2, ..., Vn]). Siento que debería poder hacer esto usando elreduceByKey funcionar con ...

3 la respuesta

Spark: Cómo unir RDD por rango de tiempo

Tengo un delicado problema de Spark, donde simplemente no puedo entenderlo. Tenemos dos RDD (procedentes de Cassandra). RDD1 contieneActions y RDD2 contieneHistoric datos. Ambos tienen una identificación en la que se pueden combinar / unir. Pero ...

3 la respuesta

¿Cómo compartir Spark RDD entre 2 contextos de Spark?

Tengo un clúster de RMI. Cada servidor RMI tiene un contexto Spark. ¿Hay alguna manera de compartir un RDD entre diferentes contextos de Spark?

1 la respuesta

Acceso a dependencias disponibles en Scala pero no en PySpark

Estoy tratando de acceder a las dependencias de un RDD. En Scala es un código bastante simple: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy ...

7 la respuesta

Explicar la funcionalidad agregada en Spark

Estoy buscando una mejor explicación de la funcionalidad agregada que está disponible a través de spark en python. El ejemplo que tengo es el siguiente (usando pyspark de la versión Spark 1.2.0) sc.parallelize([1,2,3,4]).aggregate( (0, 0), ...

10 la respuesta

Cómo convertir objetos rdd a dataframe en spark

¿Cómo puedo convertir un RDD (org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) a un marco de datosorg.apache.spark.sql.DataFrame. Convertí un marco de datos a rdd usando.rdd. Después de procesarlo, lo quiero de vuelta en el marco de ...

3 la respuesta

Chispa: reste dos marcos de datos

En versión Spark1.2.0 uno podría usarsubtract con 2SchemRDDs para terminar con solo el contenido diferente del primero val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)onlyNewData contiene las filas entodaySchemRDD que no existen ...

1 la respuesta

Serializing RDD

Tengo un RDD que estoy tratando de serializar y luego reconstruir deserializando. Estoy tratando de ver si esto es posible en Apache Spark. static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance si = ...