Каким должно быть оптимальное значение для spark.sql.shuffle.partitions или как мы увеличиваем разделы при использовании Spark SQL?

Привет я использую Spark SQL на самом делеhiveContext.sql() который использует групповые запросы, и я сталкиваюсь сOOM проблемы. Так что думая о повышении стоимостиspark.sql.shuffle.partitions с 200 по умолчанию до 1000, но это не помогает. Пожалуйста, исправьте меня, если я ошибаюсь, эти разделы будут распределять загрузку данных в произвольном порядке, поэтому чем больше разделов, тем меньше данных для хранения. Пожалуйста, руководство, я новичок в Spark. Я использую Spark 1.4.0 и у меня есть около 1 ТБ несжатых данных для обработки с помощьюhiveContext.sql() группировать по запросам.

Ответы на вопрос(4)

Ваш ответ на вопрос