Melhor abordagem do Spark Consultar Dataframe para melhorar o desempenho

Dataframe A (milhões de registros), uma das colunas é create_date, modified_date

Os registros do Dataframe B 500 possuem data de início e data de término

Abordagem atual:

Select a.*,b.* from a join b on a.create_date between start_date and end_date

O trabalho acima leva meia hora ou mais para ser executado.

como posso melhorar o desempenho

questionAnswers(2)

yourAnswerToTheQuestion