Apache Spark Обработка перекошенных данных
У меня есть две таблицы, которые я хотел бы объединить. У одного из них очень плохой перекос данных. Это приводит к тому, что моя искровая работа не запускается параллельно, так как большая часть работы выполняется на одном разделе.
Я слышал, читал и пытался реализовать соление моих ключей, чтобы увеличить распространение.https://www.youtube.com/watch?v=WyfHUNnMutg в 12:45 секунды это именно то, что я хотел бы сделать.
Любая помощь или советы будут оценены. Спасибо!