Resultados de la búsqueda a petición "rdd"

2 la respuesta

¿Es posible crear RDD anidados en Apache Spark?

Estoy tratando de implementar el algoritmo vecino K-más cercano en Spark. Me preguntaba si es posible trabajar con RDD anidados. Esto hará que mi vida sea mucho más fácil. Considere el siguiente fragmento de código. public static void main ...

1 la respuesta

cómo interpretar RDD.treeAggregate

Me encontré conesta línea [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] en el código fuente de Apache Spark val ...

4 la respuesta

Cálculo de los promedios para cada CLAVE en un RDD por pares (K, V) en Spark con Python

Quiero compartir esta solución particular de Apache Spark con Python porque la documentación es bastante pobre. Quería calcular el valor promedio de los pares K / V (almacenados en un RDD por pares), por CLAVE. Así es como se ven los datos de ...

3 la respuesta

¿Cómo imprimir elementos de una partición RDD particular en Spark?

¿Cómo imprimir los elementos de una partición particular, digamos 5to, solo? val distData = sc.parallelize(1 to 50, 10)

4 la respuesta

reduceByKey: ¿Cómo funciona internamente?

Soy nuevo en Spark y Scala. Estaba confundido sobre la forma en que funciona la función reduceByKey en Spark. Supongamos que tenemos el siguiente código: val lines = sc.textFile("data.txt") val pairs = lines.map(s => (s, 1)) val counts = ...

2 la respuesta

pyspark - Agrupación y cálculo de datos

Tengo el siguiente archivo ...

2 la respuesta

Chispear cuando se unen muchos RDD arroja error de desbordamiento

Cuando uso "++" para combinar una gran cantidad de RDD, obtuve un error de pila sobre error de flujo. Spark versión 1.3.1 Entorno: hilo-cliente. --controlador-memoria 8G El número de RDD es superior a 4000. Cada RDD se lee desde un archivo de ...

2 la respuesta

¿Cómo verificar si Spark RDD está en la memoria?

Tengo una instancia de org.apache.spark.rdd.RDD [MyClass]. ¿Cómo puedo verificar mediante programación si la instancia es persistente \ inmemory?

1 la respuesta

Spark rdd escribir en la lista global

¿Cómo escribir en una lista global con rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Cuando intento imprimir Li, el resultado es: [] Lo que intento hacer es transformar otra escucha global Li1 mientras ...

1 la respuesta

¿Hay alguna manera de reescribir Spark RDD distinto para usar mapPartitions en lugar de distinto?

Tengo un RDD que es demasiado grande para realizar consistentemente una declaración distinta sin errores espurios (por ejemplo, la etapa SparkException falló 4 veces, ExecutorLostFailure, sistema de archivos HDFS cerrado, se alcanzó el número ...