Spark лучший подход Look-up Dataframe для повышения производительности
Кадр данных A (миллионы записей) одного столбца - create_date ,ified_date
Записи в фрейме B 500 имеют начальную дату и конечную дату
Текущий подход:
Select a.*,b.* from a join b on a.create_date between start_date and end_date
Для выполнения вышеуказанной работы требуется полчаса или более.
как я могу улучшить производительность