Resultados de la búsqueda a petición "rdd"

Spark: no hay suficiente espacio para almacenar en rojo el contenedor mientras aún hay mucha memoria de almacenamiento total

Tengo un clúster de 30 nodos, cada nodo tiene 32 núcleos, 240 G de memoria (instancia de AWS cr1.8xlarge). Tengo las siguientes configuraciones: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors ...

apache-spark collect pyspark

0 la respuesta

a operación @RDD collect () falla con el error "Ningún módulo llamado pyspark"

Estoy intentando ejecutar la operación de recopilación a continuación en RDD, creada a partir de Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aquí hay algunas observaciones de obj_filter, ...

apache-spark java

1 la respuesta

Serializing RDD

Tengo un RDD que estoy tratando de serializar y luego reconstruir deserializando. Estoy tratando de ver si esto es posible en Apache Spark. static JavaSparkContext sc = new JavaSparkContext(conf); static SerializerInstance si = ...

distributed-computing scala apache-spark

1 la respuesta

cómo interpretar RDD.treeAggregate

Me encontré conesta línea [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] en el código fuente de Apache Spark val ...

globalevent pyspark url-rewriting apache-spark

1 la respuesta

Spark rdd escribir en la lista global

¿Cómo escribir en una lista global con rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Cuando intento imprimir Li, el resultado es: [] Lo que intento hacer es transformar otra escucha global Li1 mientras ...

scala apache-spark shuffle distinct

1 la respuesta

¿Hay alguna manera de reescribir Spark RDD distinto para usar mapPartitions en lugar de distinto?

Tengo un RDD que es demasiado grande para realizar consistentemente una declaración distinta sin errores espurios (por ejemplo, la etapa SparkException falló 4 veces, ExecutorLostFailure, sistema de archivos HDFS cerrado, se alcanzó el número ...

python pyspark apache-spark

1 la respuesta

PySpark - Superposición de tiempo para objeto en RDD

Mi objetivo es agrupar objetos en función de la superposición de tiempo. Cada objeto en mirdd contiene unastart_time yend_time. Probablemente estoy haciendo esto de manera ineficiente, pero lo que planeo hacer es asignar una identificación de ...

join apache-spark

1 la respuesta

¿Cómo puedo unir eficientemente un rdd grande a un rdd muy grande en spark?

Tengo dos RDD. Un RDD tiene entre 5 y 10 millones de entradas y el otro RDD tiene entre 500 y 750 millones de entradas. En algún momento, tengo que unir estos dos rdds usando una clave común. val rddA = someData.rdd.map { x => (x.key, x); } // ...

python pyspark apache-spark

1 la respuesta

Una lista como clave para reduceByKey de PySpark

Estoy intentando llamar a la función reduceByKey de pyspark en datos del formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que pyspark no aceptará una matriz como clave en la clave normal, reducción de valor simplemente aplicando ...

apache-spark scala

1 la respuesta

Explicación del método de plegado de la chispa RDD

Estoy ejecutando Spark-1.4.0 preconstruido para Hadoop-2.4 (en modo local) para calcular la suma de cuadrados de un DoubleRDD. Mi código Scala parece sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)Y dio un ...

Página 1 de 12

12 3 4 5

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "rdd"

Etiquetas Populares