Melhor abordagem do Spark Consultar Dataframe para melhorar o desempenho
Dataframe A (milhões de registros), uma das colunas é create_date, modified_date
Os registros do Dataframe B 500 possuem data de início e data de término
Abordagem atual:
Select a.*,b.* from a join b on a.create_date between start_date and end_date
O trabalho acima leva meia hora ou mais para ser executado.
como posso melhorar o desempenho