Spark bester Ansatz Datenrahmen nachschlagen, um die Leistung zu verbessern

Question

Aug 26, 2016, 07:27 PM

Dataframe A (Millionen von Datensätzen) Eine der Spalten lautet create_date, modified_date

Dataframe B 500-Datensätze haben Start_Datum und End_Datum

Aktueller Ansatz:

Select a.*,b.* from a join b on a.create_date between start_date and end_date

Die Ausführung des oben genannten Jobs dauert mindestens eine halbe Stunde.

wie kann ich die Leistung verbessern

Antworten auf die Frage(4)

Hinzufügen eines Rahmens nur zu einer Seite der <Text /> -Komponente in React Native (iOS)

Core Telephony Framework teilweise öffentlich in 4.0

Wie teste ich ein Django-Modell mit pytest?

HTML - Seiteninhalte ändern \ aktualisieren, ohne die Seite zu aktualisieren \ neu zu laden

NSPredicate für die Länge eines NSManagedObject-Zeichenfolgenattributs