Кафка Storm HDFS / S3 поток данных
Неясно, можете ли вы сделать разветвление (дублирование) в Kafka, как в Flume.I '
Я хотел бы, чтобы Kafka сохранил данные в HDFS или S3 и отправил дубликат этих данных в Storm для обработки в реальном времени. Выходные данные агрегации / анализа Storm будут храниться в Кассандре. Я вижу некоторые реализации, передающие все данные из Kafka в Storm, а затем два вывода из Storm. Однако я'Я хотел бы устранить зависимость Storm для хранения необработанных данных.
Это возможно? Вам известны какие-либо документы / примеры / реализации, подобные этой?
Кроме того, Кафка имеет хорошую поддержку хранилища S3?
Я видел Camus для хранения в HDFS - вы просто запускаете эту работу через cron для постоянной загрузки данных из Kafka в HDFS? Что произойдет, если второй экземпляр задания начнется до завершения предыдущего? Наконец, Камю будет работать с S3?
Спасибо, я ценю это!