Как сохранить / вставить каждый DStream в постоянную таблицу
Я столкнулся с проблемой с «Spark Streaming» о вставке выходного Dstream впостоянный Таблица SQL. Я хотел бы вставить каждый выходной DStream (исходящий из одного пакета, который запускает процессы) в уникальную таблицу. Я использую Python с Spark версии 1.6.2.
В этой части моего кода у меня есть Dstream, сделанный из одного или нескольких RDD, которые я хотел бы постоянно вставить / сохранить в таблицу SQL, не теряя результатов для каждого обработанного пакета.
rr = feature_and_label.join(result_zipped)\
.map(lambda x: (x[1][0][0], x[1][1]) )
каждыйDstream здесь представлен, например, как этот кортеж: (4.0, 0). Я не могу использоватьSparkSQL потому что Spark относится к «таблице», то есть каквременный стол, следовательно, теряя результат в каждой партии.
Это пример вывода:
Время: 2016-09-23 00:57:00(0,0, 2)
Время: 2016-09-23 00:57:01(4.0, 0)
Время: 2016-09-23 00:57:02(4.0, 0)
...
Как показано выше, каждая партия производится только однимDstream, Как я уже говорил ранее, я хотел бы постоянно сохранять эти результаты в таблице, где-то сохраненной, и, возможно, запросить ее позже. Итак, мой вопрос: есть ли способ сделать это?
Я был бы признателен, если бы кто-то мог помочь мне с этим, но особенно сказал бы, возможно ли это или нет. Спасибо.