Каким должно быть оптимальное значение для spark.sql.shuffle.partitions или как мы увеличиваем разделы при использовании Spark SQL?

Question

Sep 02, 2015, 11:35 AM

Каким должно быть оптимальное значение для spark.sql.shuffle.partitions или как мы увеличиваем разделы при использовании Spark SQL?

Привет я использую Spark SQL на самом делеhiveContext.sql() который использует групповые запросы, и я сталкиваюсь сOOM проблемы. Так что думая о повышении стоимостиspark.sql.shuffle.partitions с 200 по умолчанию до 1000, но это не помогает. Пожалуйста, исправьте меня, если я ошибаюсь, эти разделы будут распределять загрузку данных в произвольном порядке, поэтому чем больше разделов, тем меньше данных для хранения. Пожалуйста, руководство, я новичок в Spark. Я использую Spark 1.4.0 и у меня есть около 1 ТБ несжатых данных для обработки с помощьюhiveContext.sql() группировать по запросам.

Каким должно быть оптимальное значение для spark.sql.shuffle.partitions или как мы увеличиваем разделы при использовании Spark SQL?

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Каким должно быть оптимальное значение для spark.sql.shuffle.partitions или как мы увеличиваем разделы при использовании Spark SQL?

Ответы на вопрос(4)

Ваш ответ на вопрос

Популярные вопросы