Kafka-Thema in einem Spark-Batch-Job lesen

Question

Jun 25, 2016, 10:41 AM

kafka-consumer-api scala apache-spark spark-streaming apache-kafka

Kafka-Thema in einem Spark-Batch-Job lesen

Ich schreibe einen Spark-Stapeljob (v1.6.0), der aus einem Kafka-Thema liest.
Dafür kann ichorg.apache.spark.streaming.kafka.KafkaUtils#createRDD Ich muss jedoch die Offsets für alle Partitionen festlegen und sie auch irgendwo speichern (ZK? HDFS?), um zu wissen, von wo aus der nächste Stapeljob gestartet werden soll.

Was ist der richtige Ansatz, um von Kafka in einem @ zu lesStape Job

Ich denke auch darüber nach, ein @ zu schreib streamingjob stattdessen, der aus @ lieauto.offset.reset=smallest und speichert den Checkpoint in HDFS und startet dann beim nächsten Durchlauf von dort.

Aber in diesem Fall, wie kann ich nur einmal holen und aufhören zu streamennach der ersten Charge?