Resultados de la búsqueda a petición "rdd"

0 la respuesta

Spark: no hay suficiente espacio para almacenar en rojo el contenedor mientras aún hay mucha memoria de almacenamiento total

Tengo un clúster de 30 nodos, cada nodo tiene 32 núcleos, 240 G de memoria (instancia de AWS cr1.8xlarge). Tengo las siguientes configuraciones: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...

0 la respuesta

a operación @RDD collect () falla con el error "Ningún módulo llamado pyspark"

Estoy intentando ejecutar la operación de recopilación a continuación en RDD, creada a partir de Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aquí hay algunas observaciones de obj_filter, ...

1 la respuesta

Serializing RDD

Tengo un RDD que estoy tratando de serializar y luego reconstruir deserializando. Estoy tratando de ver si esto es posible en Apache Spark. static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance si = ...

1 la respuesta

cómo interpretar RDD.treeAggregate

Me encontré conesta línea [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] en el código fuente de Apache Spark val ...

1 la respuesta

Spark rdd escribir en la lista global

¿Cómo escribir en una lista global con rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Cuando intento imprimir Li, el resultado es: [] Lo que intento hacer es transformar otra escucha global Li1 mientras ...

1 la respuesta

¿Hay alguna manera de reescribir Spark RDD distinto para usar mapPartitions en lugar de distinto?

Tengo un RDD que es demasiado grande para realizar consistentemente una declaración distinta sin errores espurios (por ejemplo, la etapa SparkException falló 4 veces, ExecutorLostFailure, sistema de archivos HDFS cerrado, se alcanzó el número ...

1 la respuesta

PySpark - Superposición de tiempo para objeto en RDD

Mi objetivo es agrupar objetos en función de la superposición de tiempo. Cada objeto en mirdd contiene unastart_time yend_time. Probablemente estoy haciendo esto de manera ineficiente, pero lo que planeo hacer es asignar una identificación de ...

1 la respuesta

¿Cómo puedo unir eficientemente un rdd grande a un rdd muy grande en spark?

Tengo dos RDD. Un RDD tiene entre 5 y 10 millones de entradas y el otro RDD tiene entre 500 y 750 millones de entradas. En algún momento, tengo que unir estos dos rdds usando una clave común. val rddA = someData.rdd.map { x => (x.key, x); } // ...

1 la respuesta

Una lista como clave para reduceByKey de PySpark

Estoy intentando llamar a la función reduceByKey de pyspark en datos del formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que pyspark no aceptará una matriz como clave en la clave normal, reducción de valor simplemente aplicando ...

1 la respuesta

Explicación del método de plegado de la chispa RDD

Estoy ejecutando Spark-1.4.0 preconstruido para Hadoop-2.4 (en modo local) para calcular la suma de cuadrados de un DoubleRDD. Mi código Scala parece sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)Y dio un ...