Qual deve ser o valor ideal para spark.sql.shuffle.partitions ou como aumentamos as partições ao usar o Spark SQL?

Question

Sep 02, 2015, 11:35 AM

Qual deve ser o valor ideal para spark.sql.shuffle.partitions ou como aumentamos as partições ao usar o Spark SQL?

Oi, eu estou usando Spark SQL realmentehiveContext.sql() que usa o grupo por consultas e estou correndo paraOOM problemas. Então, pensando em aumentar o valor despark.sql.shuffle.partitions de 200 padrão para 1000, mas não está ajudando. Corrija-me se estiver errado, essas partições compartilharão a carga aleatória de dados para que mais partições tenham menos dados para armazenar. Por favor, guie eu sou novo no Spark. Estou usando o Spark 1.4.0 e tenho cerca de 1 TB de dados não compactados para processar usandohiveContext.sql() agrupar por consultas.