So berechnen Sie die kumulative Summe mit sqlContext

Ich weiß, wir können @ verwendFensterfunktion in pyspark, um die kumulative Summe zu berechnen. Windows wird jedoch nur in HiveContext und nicht in SQLContext unterstützt. Ich muss SQLContext verwenden, da HiveContext nicht in mehreren Prozessen ausgeführt werden kann.

Gibt es eine effiziente Möglichkeit, die kumulative Summe mithilfe von SQLContext zu berechnen? Eine einfache Möglichkeit besteht darin, die Daten in den Speicher des Treibers zu laden und numpy.cumsum zu verwenden. Der Nachteil ist jedoch, dass die Daten in den Speicher passen müssen.

Antworten auf die Frage(8)

Ihre Antwort auf die Frage