Kafka Storm HDFS / S3 flujo de datos
No está claro si puedes hacer un fan-out (duplicación) en Kafka como puedes hacerlo en Flume.
Me gustaría que Kafka guarde los datos en HDFS o S3 y envíe un duplicado de esos datos a Storm para el procesamiento en tiempo real. La salida de las agregaciones / análisis de Storm se almacenará en Cassandra. Veo algunas implementaciones que fluyen todos los datos de Kafka a Storm y luego dos salidas de Storm. Sin embargo, me gustaría eliminar la dependencia de Storm para el almacenamiento de datos sin procesar.
es posible? ¿Tiene conocimiento de alguna documentación / ejemplos / implementaciones como esta?
Además, ¿Kafka tiene un buen soporte para el almacenamiento de S3?
Vi a Camus para almacenarlo en HDFS: ¿acaba de ejecutar este trabajo a través de cron para cargar continuamente datos de Kafka a HDFS? ¿Qué sucede si se inicia una segunda instancia del trabajo antes de que termine la anterior? Finalmente, ¿Camus trabajaría con S3?
¡Gracias lo aprecio!