Resultados de la búsqueda a petición "rdd"

4 la respuesta

Cálculo de los promedios para cada CLAVE en un RDD por pares (K, V) en Spark con Python

Quiero compartir esta solución particular de Apache Spark con Python porque la documentación es bastante pobre. Quería calcular el valor promedio de los pares K / V (almacenados en un RDD por pares), por CLAVE. Así es como se ven los datos de ...

3 la respuesta

Spark: Cómo unir RDD por rango de tiempo

Tengo un delicado problema de Spark, donde simplemente no puedo entenderlo. Tenemos dos RDD (procedentes de Cassandra). RDD1 contieneActions y RDD2 contieneHistoric datos. Ambos tienen una identificación en la que se pueden combinar / unir. Pero ...

1 la respuesta

¿Qué significa "Stage Skipped" en la interfaz de usuario web de Apache Spark?

Desde mi IU Spark. ¿Qué significa omitido? [/imgs/cyvd1.png]

1 la respuesta

Igualdad de clase de caso en Apache Spark

¿Por qué la coincidencia de patrones en Spark no funciona igual que en Scala? Ver ejemplo a continuación ... funciónf() intenta hacer coincidir el patrón en la clase, que funciona en el REPL de Scala pero falla en Spark y da como resultado todos ...

4 la respuesta

¿Cuál es la diferencia entre cache y persistir?

En términos deRDD persistencia, ¿cuáles son las diferencias entrecache() ypersist() en chispa?

3 la respuesta

Partir RDD en tuplas de longitud n

Soy relativamente nuevo en Apache Spark y Python y me preguntaba si algo como lo que voy a describir era factible. Tengo un RDD de la forma [m1m2m3m4m5m6.......metron$8Tengo un RDD de la forma [m9m10m11m12m13m14$n-2mn-1mn)]. Las tuplas internas ...

1 la respuesta

Apache spark que trata con declaraciones de casos

Estoy tratando de transformar el código SQL en código PySpark y encontré algunas declaraciones SQL. No sé cómo abordar las declaraciones de casos en pyspark? Estoy planeando crear un RDD y luego usar rdd.map y luego hacer algunas verificaciones ...

4 la respuesta

Spark: ¿Diferencia entre Shuffle Write, Shuffle spill (memoria), Shuffle spill (disco)?

Tengo el siguiente trabajo brillante, tratando de mantener todo en la memoria: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { ...

1 la respuesta

Acceso a dependencias disponibles en Scala pero no en PySpark

Estoy tratando de acceder a las dependencias de un RDD. En Scala es un código bastante simple: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy ...

1 la respuesta

cómo combinar 3 pares de RDD

Tengo una especie de requisito complejo 1) 1) para Pinterest twitter handle , pinterest_post , pinterest_likes. handle "what" , 7 JavaPairRDD<String ,Pinterest> PintRDD2) para Instagram Twitter handle , instargam_post , instagram_likes handle ...