Apache Spark que maneja datos sesgados

Question

Aug 15, 2016, 08:14 PM

apache-spark hadoop scala spark-dataframe

Apache Spark que maneja datos sesgados

Tengo dos mesas que me gustaría unir. Uno de ellos tiene un sesgo de datos muy malo. Esto está causando que mi trabajo de chispa no se ejecute en paralelo ya que la mayoría del trabajo se realiza en una partición.

Escuché y leí e intenté implementar la salazón de mis claves para aumentar la distribución.https://www.youtube.com/watch?v=WyfHUNnMutg a las 12:45 segundos es exactamente lo que me gustaría hacer.

Cualquier ayuda o consejos serán apreciados. ¡Gracias!