Spark mejor enfoque de búsqueda de datos para mejorar el rendimiento

Marco de datos A (millones de registros) uno de la columna es create_date, modified_date

Los registros del marco de datos B 500 tienen fecha_inicio y fecha_finalización

Enfoque actual:

Select a.*,b.* from a join b on a.create_date between start_date and end_date

El trabajo anterior tarda media hora o más en ejecutarse.

¿Cómo puedo mejorar el rendimiento?

Respuestas a la pregunta(2)

Su respuesta a la pregunta