Удалить пустые разделы из Spark RDD
Я получаю данные из HDFS и сохраняю их в Spark RDD. Spark создает количество разделов в зависимости от количества блоков HDFS. Это приводит к большому количеству пустых разделов, которые также обрабатываются во время конвейера. Чтобы снять эти издержки, я хочу отфильтровать все пустые разделы из RDD. Я знаю о слиянии и перераспределении, но нет никакой гарантии, что все пустые разделы будут удалены.
Есть ли другой способ пойти по этому поводу?