Was sollte der optimale Wert für spark.sql.shuffle.partitions sein oder wie erhöhen wir die Partitionen bei Verwendung von Spark SQL?

Question

Sep 02, 2015, 11:35 AM

Was sollte der optimale Wert für spark.sql.shuffle.partitions sein oder wie erhöhen wir die Partitionen bei Verwendung von Spark SQL?

Hi, ich verwende eigentlich Spark SQLhiveContext.sql(), bei dem nach Abfragen gruppiert wird und ich auf @ stoOOM Probleme. Denken Sie also an den steigenden Wert vonspark.sql.shuffle.partitions von 200 auf 1000 voreingestellt, aber es hilft nicht. Bitte korrigieren Sie mich, wenn ich falsch liege. Diese Partitionen teilen sich das Daten-Shuffle-Load, sodass mehr Partitionen weniger Daten gespeichert werden. Bitte führe ich bin neu bei Spark. Ich verwende Spark 1.4.0 und habe ungefähr 1 TB unkomprimierter Daten für die Verarbeitung mithiveContext.sql() nach Abfragen gruppieren.