Spark bester Ansatz Datenrahmen nachschlagen, um die Leistung zu verbessern

Dataframe A (Millionen von Datensätzen) Eine der Spalten lautet create_date, modified_date

Dataframe B 500-Datensätze haben Start_Datum und End_Datum

Aktueller Ansatz:

Select a.*,b.* from a join b on a.create_date between start_date and end_date

Die Ausführung des oben genannten Jobs dauert mindestens eine halbe Stunde.

wie kann ich die Leistung verbessern

Antworten auf die Frage(4)

Ihre Antwort auf die Frage