Kafka Storm HDFS / S3 Datenfluss

Question

Jun 22, 2013, 11:59 PM

Kafka Storm HDFS / S3 Datenfluss

Es ist unklar, ob Sie in Kafka wie in Flume ein Fan-Out (Duplizieren) durchführen können.

Ich möchte, dass Kafka Daten in HDFS oder S3 speichert und ein Duplikat dieser Daten zur Echtzeitverarbeitung an Storm sendet. Die Ausgabe von Sturmaggregationen / -analysen wird in Cassandra gespeichert. Ich sehe einige Implementierungen, die alle Daten von Kafka in Storm und dann zwei Ausgaben von Storm fließen lassen. Ich möchte jedoch die Abhängigkeit von Storm für die Rohdatenspeicherung beseitigen.

Ist das möglich? Kennen Sie solche Dokumentationen / Beispiele / Implementierungen?

Hat Kafka auch eine gute Unterstützung für S3-Speicher?

Ich habe Camus zum Speichern in HDFS gesehen. Führen Sie diesen Job einfach über cron aus, um kontinuierlich Daten von Kafka in HDFS zu laden. Was passiert, wenn eine zweite Instanz des Jobs gestartet wird, bevor die vorherige beendet ist? Würde Camus schließlich mit S3 arbeiten?

Danke ich schätze das!