Spark mejor enfoque de búsqueda de datos para mejorar el rendimiento
Marco de datos A (millones de registros) uno de la columna es create_date, modified_date
Los registros del marco de datos B 500 tienen fecha_inicio y fecha_finalización
Enfoque actual:
Select a.*,b.* from a join b on a.create_date between start_date and end_date
El trabajo anterior tarda media hora o más en ejecutarse.
¿Cómo puedo mejorar el rendimiento?