So speichern / fügen Sie jeden DStream in eine permanente Tabelle ein

Question

Sep 23, 2016, 01:22 AM

spark-dataframe spark-streaming apache-spark apache-spark-sql pyspark

So speichern / fügen Sie jeden DStream in eine permanente Tabelle ein

Ich habe ein Problem mit "Spark Streaming" bezüglich des Einfügens von Output Dstream in ein permanent SQL-Tabelle. Ich möchte jeden Ausgabe-DStream (der aus einem einzelnen Stapel stammt, der Prozesse auslöst) in eine eindeutige Tabelle einfügen. Ich habe Python mit einer Spark-Version 1.6.2 verwendet.

An dieser Stelle in meinem Code habe ich einen Dstream aus einem oder mehreren RDDs, die ich dauerhaft in eine SQL-Tabelle einfügen / speichern möchte, ohne für jeden verarbeiteten Stapel ein Ergebnis zu verlieren.

rr = feature_and_label.join(result_zipped)\
                      .map(lambda x: (x[1][0][0], x[1][1]) )

Jeder Dstream hier wird zum Beispiel wie folgt dargestellt: (4.0, 0). Ich kann @ nicht verwend SparkSQL weil die Art und Weise, wie Spark die 'Tabelle' behandelt, das heißt, wie ein temporärer Tisch, daher verliert das Ergebnis bei jeder Charge.

Dies ist ein Beispiel für die Ausgabe:

Zeit: 23.09.2016 00: 57: 00

(0,0, 2)

Zeit: 23.09.2016 00: 57: 01

(4,0, 0)

Zeit: 23.09.2016 00: 57: 02

(4,0, 0)

...

Wie oben gezeigt, wird jede Charge von nur einem @ erstell Dstream. Wie ich bereits sagte, möchte ich diese Ergebnisse dauerhaft in einer Tabelle speichern, die irgendwo gespeichert ist, und sie möglicherweise zu einem späteren Zeitpunkt abfragen. Meine Frage lautet also: Gibt es eine Möglichkeit, dies zu tun?
Ich würde mich freuen, wenn mir jemand dabei helfen kann, mir aber vor allem sagt, ob es möglich ist oder nicht. Vielen Dank