Partição SparkPor muito mais lento que sem ela

Question

Oct 02, 2015, 01:13 AM

Eu testei a escrita com:

 df.write.partitionBy("id", "name")
    .mode(SaveMode.Append)
    .parquet(filePath)

No entanto, se eu deixar de fora o particionamento:

 df.write
    .mode(SaveMode.Append)
    .parquet(filePath)

Ele executa 100x (!) Mais rápido.

É normal que a mesma quantidade de dados leve 100x mais tempo para gravar ao particionar?

Existem 10 e 3000 únicosid ename valores da coluna respectivamente. oDataFrame possui 10 colunas inteiras adicionais.

questionAnswers(1)

Influenciando a codificação de páginas servidas por meteoro?

As entidades Enterprise Java devem ser burras?

WP7 como armazenar LiveConnectSession durante TombStoning?

Consulta de login PHP e MySQL

Fundição ou conversão de um caractere para um NSString em Objective-C