Resultados de la búsqueda a petición "rdd"

En Pyspark, puedo crear un RDD de una lista y decidir cuántas particiones tener: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)¿Cómo influye en el rendimiento el número de particiones que decido particionar mi RDD? ¿Y cómo depende esto de ...

java apache-spark

1 la respuesta

Valor del acumulador de chispas no leído por tarea

Estoy inicializando un acumulador final Accumulator<Integer> accum = sc.accumulator(0); Y luego, mientras estoy en la función de mapa, intento incrementar el acumulador, luego uso el valor del acumulador para establecer una ...

python pyspark serialization apache-spark

1 la respuesta

Spark leyendo python3 pickle como entrada

Mis datos están disponibles como conjuntos de archivos en escabeche de Python 3. La mayoría de ellos son serialización de pandasDataFrames. Me gustaría comenzar a usar Spark porque necesito más memoria y CPU que una computadora puede tener. ...

apache-spark pyspark dataframe

2 la respuesta

pasando el valor de RDD a otro RDD como variable - Spark #Pyspark [duplicado]

Esta pregunta ya tiene una respuesta aquí: ¿Cómo obtener un valor del objeto Row en Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 respuestas Actualmente estoy explorando cómo llamar a grandes ...

apache-spark collect pyspark

0 la respuesta

a operación @RDD collect () falla con el error "Ningún módulo llamado pyspark"

Estoy intentando ejecutar la operación de recopilación a continuación en RDD, creada a partir de Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aquí hay algunas observaciones de obj_filter, ...

Página 12 de 12

8 9 10 1112

Resultados de la búsqueda a petición "rdd"

Número de particiones en RDD y rendimiento en Spark

Valor del acumulador de chispas no leído por tarea

Spark leyendo python3 pickle como entrada

Etiquetas Populares

pasando el valor de RDD a otro RDD como variable - Spark #Pyspark [duplicado]

a operación @RDD collect () falla con el error "Ningún módulo llamado pyspark"

¡Eres muy activo! ¡Es genial!

Resultados de la búsqueda a petición "rdd"

Número de particiones en RDD y rendimiento en Spark

Valor del acumulador de chispas no leído por tarea

Spark leyendo python3 pickle como entrada

Etiquetas Populares

pasando el valor de RDD a otro RDD como variable - Spark #Pyspark [duplicado]

a operación @RDD collect () falla con el error "Ningún módulo llamado pyspark"