¿Cuál debería ser el valor óptimo para spark.sql.shuffle.partitions o cómo aumentamos las particiones al usar Spark SQL?

Question

Sep 02, 2015, 11:35 AM

¿Cuál debería ser el valor óptimo para spark.sql.shuffle.partitions o cómo aumentamos las particiones al usar Spark SQL?

Hola, estoy usando Spark SQL en realidadhiveContext.sql() que usa group by queries y me encuentro conOOM cuestiones. Entonces pensando en aumentar el valor despark.sql.shuffle.partitions de 200 por defecto a 1000 pero no está ayudando. Por favor, corríjame si estoy equivocado, estas particiones compartirán la carga aleatoria de datos, por lo que más particiones tendrán menos datos. Por favor guía, soy nuevo en Spark. Estoy usando Spark 1.4.0 y tengo alrededor de 1TB de datos sin comprimir para procesar usandohiveContext.sql() Agrupar por consultas.