Kafka-Thema in einem Spark-Batch-Job lesen
Ich schreibe einen Spark-Stapeljob (v1.6.0), der aus einem Kafka-Thema liest.
Dafür kann ichorg.apache.spark.streaming.kafka.KafkaUtils#createRDD
Ich muss jedoch die Offsets für alle Partitionen festlegen und sie auch irgendwo speichern (ZK? HDFS?), um zu wissen, von wo aus der nächste Stapeljob gestartet werden soll.
Was ist der richtige Ansatz, um von Kafka in einem @ zu lesStape Job
Ich denke auch darüber nach, ein @ zu schreib streamingjob stattdessen, der aus @ lieauto.offset.reset=smallest
und speichert den Checkpoint in HDFS und startet dann beim nächsten Durchlauf von dort.
Aber in diesem Fall, wie kann ich nur einmal holen und aufhören zu streamennach der ersten Charge?