Удалить пустые разделы из Spark RDD

Question

Oct 22, 2015, 11:22 AM

Удалить пустые разделы из Spark RDD

Я получаю данные из HDFS и сохраняю их в Spark RDD. Spark создает количество разделов в зависимости от количества блоков HDFS. Это приводит к большому количеству пустых разделов, которые также обрабатываются во время конвейера. Чтобы снять эти издержки, я хочу отфильтровать все пустые разделы из RDD. Я знаю о слиянии и перераспределении, но нет никакой гарантии, что все пустые разделы будут удалены.

Есть ли другой способ пойти по этому поводу?

Удалить пустые разделы из Spark RDD

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Удалить пустые разделы из Spark RDD

Ответы на вопрос(1)

Ваш ответ на вопрос

Популярные вопросы