Partição SparkPor muito mais lento que sem ela
Eu testei a escrita com:
df.write.partitionBy("id", "name")
.mode(SaveMode.Append)
.parquet(filePath)
No entanto, se eu deixar de fora o particionamento:
df.write
.mode(SaveMode.Append)
.parquet(filePath)
Ele executa 100x (!) Mais rápido.
É normal que a mesma quantidade de dados leve 100x mais tempo para gravar ao particionar?
Existem 10 e 3000 únicosid
ename
valores da coluna respectivamente. oDataFrame
possui 10 colunas inteiras adicionais.