Resultados de la búsqueda a petición "rdd"
¿Es posible crear RDD anidados en Apache Spark?
Estoy tratando de implementar el algoritmo vecino K-más cercano en Spark. Me preguntaba si es posible trabajar con RDD anidados. Esto hará que mi vida sea mucho más fácil. Considere el siguiente fragmento de código. public static void main ...
cómo interpretar RDD.treeAggregate
Me encontré conesta línea [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] en el código fuente de Apache Spark val ...
Cálculo de los promedios para cada CLAVE en un RDD por pares (K, V) en Spark con Python
Quiero compartir esta solución particular de Apache Spark con Python porque la documentación es bastante pobre. Quería calcular el valor promedio de los pares K / V (almacenados en un RDD por pares), por CLAVE. Así es como se ven los datos de ...
¿Cómo imprimir elementos de una partición RDD particular en Spark?
¿Cómo imprimir los elementos de una partición particular, digamos 5to, solo? val distData = sc.parallelize(1 to 50, 10)
reduceByKey: ¿Cómo funciona internamente?
Soy nuevo en Spark y Scala. Estaba confundido sobre la forma en que funciona la función reduceByKey en Spark. Supongamos que tenemos el siguiente código: val lines = sc.textFile("data.txt") val pairs = lines.map(s => (s, 1)) val counts = ...
pyspark - Agrupación y cálculo de datos
Tengo el siguiente archivo ...
Chispear cuando se unen muchos RDD arroja error de desbordamiento
Cuando uso "++" para combinar una gran cantidad de RDD, obtuve un error de pila sobre error de flujo. Spark versión 1.3.1 Entorno: hilo-cliente. --controlador-memoria 8G El número de RDD es superior a 4000. Cada RDD se lee desde un archivo de ...
¿Cómo verificar si Spark RDD está en la memoria?
Tengo una instancia de org.apache.spark.rdd.RDD [MyClass]. ¿Cómo puedo verificar mediante programación si la instancia es persistente \ inmemory?
Spark rdd escribir en la lista global
¿Cómo escribir en una lista global con rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Cuando intento imprimir Li, el resultado es: [] Lo que intento hacer es transformar otra escucha global Li1 mientras ...
¿Hay alguna manera de reescribir Spark RDD distinto para usar mapPartitions en lugar de distinto?
Tengo un RDD que es demasiado grande para realizar consistentemente una declaración distinta sin errores espurios (por ejemplo, la etapa SparkException falló 4 veces, ExecutorLostFailure, sistema de archivos HDFS cerrado, se alcanzó el número ...