Как сохранить / вставить каждый DStream в постоянную таблицу

Question

Sep 23, 2016, 01:22 AM

apache-spark-sql apache-spark spark-dataframe pyspark spark-streaming

Как сохранить / вставить каждый DStream в постоянную таблицу

Я столкнулся с проблемой с «Spark Streaming» о вставке выходного Dstream впостоянный Таблица SQL. Я хотел бы вставить каждый выходной DStream (исходящий из одного пакета, который запускает процессы) в уникальную таблицу. Я использую Python с Spark версии 1.6.2.

В этой части моего кода у меня есть Dstream, сделанный из одного или нескольких RDD, которые я хотел бы постоянно вставить / сохранить в таблицу SQL, не теряя результатов для каждого обработанного пакета.

rr = feature_and_label.join(result_zipped)\
                      .map(lambda x: (x[1][0][0], x[1][1]) )

каждыйDstream здесь представлен, например, как этот кортеж: (4.0, 0). Я не могу использоватьSparkSQL потому что Spark относится к «таблице», то есть каквременный стол, следовательно, теряя результат в каждой партии.

Это пример вывода:

Время: 2016-09-23 00:57:00

(0,0, 2)

Время: 2016-09-23 00:57:01

(4.0, 0)

Время: 2016-09-23 00:57:02

(4.0, 0)

...

Как показано выше, каждая партия производится только однимDstream, Как я уже говорил ранее, я хотел бы постоянно сохранять эти результаты в таблице, где-то сохраненной, и, возможно, запросить ее позже. Итак, мой вопрос: есть ли способ сделать это?
Я был бы признателен, если бы кто-то мог помочь мне с этим, но особенно сказал бы, возможно ли это или нет. Спасибо.

Как сохранить / вставить каждый DStream в постоянную таблицу

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как сохранить / вставить каждый DStream в постоянную таблицу

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы