Прочитайте тему Кафки в пакетном задании Spark
Я пишу пакетное задание Spark (v1.6.0), которое читает из темы Кафки.
Для этого я могу использоватьorg.apache.spark.streaming.kafka.KafkaUtils#createRDD
однако мне нужно установить смещения для всех разделов, а также где-то их хранить (ZK? HDFS?), чтобы знать, с чего начать следующее пакетное задание.
Как правильно читать с Кафки впартия работа?
Я также думаю о написаниипотоковый работа вместо, которая читает изauto.offset.reset=smallest
и сохраняет контрольную точку в HDFS, а затем при следующем запуске она начинается с этого.
Но в этом случае, как я могу просто получить один раз и прекратить потоковоепосле первой партии?