Qual deve ser o valor ideal para spark.sql.shuffle.partitions ou como aumentamos as partições ao usar o Spark SQL?

Oi, eu estou usando Spark SQL realmentehiveContext.sql() que usa o grupo por consultas e estou correndo paraOOM problemas. Então, pensando em aumentar o valor despark.sql.shuffle.partitions de 200 padrão para 1000, mas não está ajudando. Corrija-me se estiver errado, essas partições compartilharão a carga aleatória de dados para que mais partições tenham menos dados para armazenar. Por favor, guie eu sou novo no Spark. Estou usando o Spark 1.4.0 e tenho cerca de 1 TB de dados não compactados para processar usandohiveContext.sql() agrupar por consultas.

questionAnswers(4)

yourAnswerToTheQuestion