Apache Spark Umgang mit verzerrten Daten

Question

Aug 15, 2016, 08:14 PM

hadoop scala apache-spark spark-dataframe

Apache Spark Umgang mit verzerrten Daten

Ich habe zwei Tische, die ich zusammenfügen möchte. Einer von ihnen hat einen sehr schlechten Datenfehler. Dies führt dazu, dass mein Spark-Job nicht parallel ausgeführt wird, da ein Großteil der Arbeit auf einer Partition ausgeführt wird.

Ich habe gehört und gelesen und versucht, das Salting meiner Schlüssel zu implementieren, um die Verteilung zu erhöhen.https: //www.youtube.com/watch? v = WyfHUNnMutg um 12:45 Sekunden ist genau das, was ich tun möchte.

Jede Hilfe oder Tipps wäre dankbar. Vielen Dank