Resultados de la búsqueda a petición "rdd"

2 la respuesta

Número de particiones en RDD y rendimiento en Spark

En Pyspark, puedo crear un RDD de una lista y decidir cuántas particiones tener: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)¿Cómo influye en el rendimiento el número de particiones que decido particionar mi RDD? ¿Y cómo depende esto de ...

1 la respuesta

Valor del acumulador de chispas no leído por tarea

Estoy inicializando un acumulador final Accumulator<Integer> accum = sc.accumulator(0); Y luego, mientras estoy en la función de mapa, intento incrementar el acumulador, luego uso el valor del acumulador para establecer una ...

1 la respuesta

Spark leyendo python3 pickle como entrada

Mis datos están disponibles como conjuntos de archivos en escabeche de Python 3. La mayoría de ellos son serialización de pandasDataFrames. Me gustaría comenzar a usar Spark porque necesito más memoria y CPU que una computadora puede tener. ...

2 la respuesta

pasando el valor de RDD a otro RDD como variable - Spark #Pyspark [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo obtener un valor del objeto Row en Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 respuestas Actualmente estoy explorando cómo llamar a grandes ...

0 la respuesta

a operación @RDD collect () falla con el error "Ningún módulo llamado pyspark"

Estoy intentando ejecutar la operación de recopilación a continuación en RDD, creada a partir de Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aquí hay algunas observaciones de obj_filter, ...