Kafka Storm HDFS / S3 flujo de datos

Question

Jun 22, 2013, 11:59 PM

Kafka Storm HDFS / S3 flujo de datos

No está claro si puedes hacer un fan-out (duplicación) en Kafka como puedes hacerlo en Flume.

Me gustaría que Kafka guarde los datos en HDFS o S3 y envíe un duplicado de esos datos a Storm para el procesamiento en tiempo real. La salida de las agregaciones / análisis de Storm se almacenará en Cassandra. Veo algunas implementaciones que fluyen todos los datos de Kafka a Storm y luego dos salidas de Storm. Sin embargo, me gustaría eliminar la dependencia de Storm para el almacenamiento de datos sin procesar.

es posible? ¿Tiene conocimiento de alguna documentación / ejemplos / implementaciones como esta?

Además, ¿Kafka tiene un buen soporte para el almacenamiento de S3?

Vi a Camus para almacenarlo en HDFS: ¿acaba de ejecutar este trabajo a través de cron para cargar continuamente datos de Kafka a HDFS? ¿Qué sucede si se inicia una segunda instancia del trabajo antes de que termine la anterior? Finalmente, ¿Camus trabajaría con S3?

¡Gracias lo aprecio!