Spark bester Ansatz Datenrahmen nachschlagen, um die Leistung zu verbessern
Dataframe A (Millionen von Datensätzen) Eine der Spalten lautet create_date, modified_date
Dataframe B 500-Datensätze haben Start_Datum und End_Datum
Aktueller Ansatz:
Select a.*,b.* from a join b on a.create_date between start_date and end_date
Die Ausführung des oben genannten Jobs dauert mindestens eine halbe Stunde.
wie kann ich die Leistung verbessern