Spark лучший подход Look-up Dataframe для повышения производительности

Question

Aug 26, 2016, 07:27 PM

Кадр данных A (миллионы записей) одного столбца - create_date ,ified_date

Записи в фрейме B 500 имеют начальную дату и конечную дату

Текущий подход:

Select a.*,b.* from a join b on a.create_date between start_date and end_date

Для выполнения вышеуказанной работы требуется полчаса или более.

как я могу улучшить производительность

Ответы на вопрос(2)