Resultados de la búsqueda a petición "rdd"

Estoy tratando de implementar el algoritmo vecino K-más cercano en Spark. Me preguntaba si es posible trabajar con RDD anidados. Esto hará que mi vida sea mucho más fácil. Considere el siguiente fragmento de código. public static void main ...

distributed-computing scala apache-spark

1 la respuesta

cómo interpretar RDD.treeAggregate

Me encontré conesta línea [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] en el código fuente de Apache Spark val ...

apache-spark average python aggregate

4 la respuesta

Cálculo de los promedios para cada CLAVE en un RDD por pares (K, V) en Spark con Python

Quiero compartir esta solución particular de Apache Spark con Python porque la documentación es bastante pobre. Quería calcular el valor promedio de los pares K / V (almacenados en un RDD por pares), por CLAVE. Así es como se ven los datos de ...

scala apache-spark

3 la respuesta

¿Cómo imprimir elementos de una partición RDD particular en Spark?

¿Cómo imprimir los elementos de una partición particular, digamos 5to, solo? val distData = sc.parallelize(1 to 50, 10)

scala apache-spark

4 la respuesta

reduceByKey: ¿Cómo funciona internamente?

Soy nuevo en Spark y Scala. Estaba confundido sobre la forma en que funciona la función reduceByKey en Spark. Supongamos que tenemos el siguiente código: val lines = sc.textFile("data.txt") val pairs = lines.map(s => (s, 1)) val counts = ...

python apache-spark pyspark

2 la respuesta

pyspark - Agrupación y cálculo de datos

Tengo el siguiente archivo ...

apache-spark

2 la respuesta

Chispear cuando se unen muchos RDD arroja error de desbordamiento

Cuando uso "++" para combinar una gran cantidad de RDD, obtuve un error de pila sobre error de flujo. Spark versión 1.3.1 Entorno: hilo-cliente. --controlador-memoria 8G El número de RDD es superior a 4000. Cada RDD se lee desde un archivo de ...

apache-spark in-memory

2 la respuesta

¿Cómo verificar si Spark RDD está en la memoria?

Tengo una instancia de org.apache.spark.rdd.RDD [MyClass]. ¿Cómo puedo verificar mediante programación si la instancia es persistente \ inmemory?

globalevent pyspark url-rewriting apache-spark

1 la respuesta

Spark rdd escribir en la lista global

¿Cómo escribir en una lista global con rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Cuando intento imprimir Li, el resultado es: [] Lo que intento hacer es transformar otra escucha global Li1 mientras ...

scala apache-spark shuffle distinct

1 la respuesta

¿Hay alguna manera de reescribir Spark RDD distinto para usar mapPartitions en lugar de distinto?

Tengo un RDD que es demasiado grande para realizar consistentemente una declaración distinta sin errores espurios (por ejemplo, la etapa SparkException falló 4 veces, ExecutorLostFailure, sistema de archivos HDFS cerrado, se alcanzó el número ...

Página 6 de 12

4 567 8

Resultados de la búsqueda a petición "rdd"

¿Es posible crear RDD anidados en Apache Spark?

cómo interpretar RDD.treeAggregate

Cálculo de los promedios para cada CLAVE en un RDD por pares (K, V) en Spark con Python

Etiquetas Populares

¿Cómo imprimir elementos de una partición RDD particular en Spark?

reduceByKey: ¿Cómo funciona internamente?

pyspark - Agrupación y cálculo de datos

Chispear cuando se unen muchos RDD arroja error de desbordamiento

¿Cómo verificar si Spark RDD está en la memoria?

Spark rdd escribir en la lista global

¿Hay alguna manera de reescribir Spark RDD distinto para usar mapPartitions en lugar de distinto?

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "rdd"

Etiquetas Populares