Partición Spark: mucho más lenta que sin ella

Question

Oct 02, 2015, 01:13 AM

Probé escribiendo con:

 df.write.partitionBy("id", "name")
    .mode(SaveMode.Append)
    .parquet(filePath)

Sin embargo, si dejo de lado la partición:

 df.write
    .mode(SaveMode.Append)
    .parquet(filePath)

Se ejecuta 100x (!) Más rápido.

¿Es normal que la misma cantidad de datos demore 100 veces más en escribirse al particionar?

Hay 10 y 3000 únicosid yname valores de columna respectivamente. losDataFrame tiene 10 columnas enteras adicionales.

Respuestas a la pregunta(1)

¿Cómo engañar a Node.js para cargar archivos .js como módulos ES6?

¿Por qué mi contador de Bash se restablece después del ciclo

Error: no se puede resolver 'rxjs / add / operator / map'

hundir un marco de datos en un archivo .txt

¿Cuál es la mejor manera de verificar si el elemento tiene una clase?