Resultados de la búsqueda a petición "rdd"
Spark: no hay suficiente espacio para almacenar en rojo el contenedor mientras aún hay mucha memoria de almacenamiento total
Tengo un clúster de 30 nodos, cada nodo tiene 32 núcleos, 240 G de memoria (instancia de AWS cr1.8xlarge). Tengo las siguientes configuraciones: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...
a operación @RDD collect () falla con el error "Ningún módulo llamado pyspark"
Estoy intentando ejecutar la operación de recopilación a continuación en RDD, creada a partir de Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aquí hay algunas observaciones de obj_filter, ...
Serializing RDD
Tengo un RDD que estoy tratando de serializar y luego reconstruir deserializando. Estoy tratando de ver si esto es posible en Apache Spark. static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance si = ...
cómo interpretar RDD.treeAggregate
Me encontré conesta línea [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] en el código fuente de Apache Spark val ...
Spark rdd escribir en la lista global
¿Cómo escribir en una lista global con rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Cuando intento imprimir Li, el resultado es: [] Lo que intento hacer es transformar otra escucha global Li1 mientras ...
¿Hay alguna manera de reescribir Spark RDD distinto para usar mapPartitions en lugar de distinto?
Tengo un RDD que es demasiado grande para realizar consistentemente una declaración distinta sin errores espurios (por ejemplo, la etapa SparkException falló 4 veces, ExecutorLostFailure, sistema de archivos HDFS cerrado, se alcanzó el número ...
PySpark - Superposición de tiempo para objeto en RDD
Mi objetivo es agrupar objetos en función de la superposición de tiempo. Cada objeto en mirdd contiene unastart_time yend_time. Probablemente estoy haciendo esto de manera ineficiente, pero lo que planeo hacer es asignar una identificación de ...
¿Cómo puedo unir eficientemente un rdd grande a un rdd muy grande en spark?
Tengo dos RDD. Un RDD tiene entre 5 y 10 millones de entradas y el otro RDD tiene entre 500 y 750 millones de entradas. En algún momento, tengo que unir estos dos rdds usando una clave común. val rddA = someData.rdd.map { x => (x.key, x); } // ...
Una lista como clave para reduceByKey de PySpark
Estoy intentando llamar a la función reduceByKey de pyspark en datos del formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que pyspark no aceptará una matriz como clave en la clave normal, reducción de valor simplemente aplicando ...
Explicación del método de plegado de la chispa RDD
Estoy ejecutando Spark-1.4.0 preconstruido para Hadoop-2.4 (en modo local) para calcular la suma de cuadrados de un DoubleRDD. Mi código Scala parece sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)Y dio un ...