Кафка Storm HDFS / S3 поток данных

Неясно, можете ли вы сделать разветвление (дублирование) в Kafka, как в Flume.I '

Я хотел бы, чтобы Kafka сохранил данные в HDFS или S3 и отправил дубликат этих данных в Storm для обработки в реальном времени. Выходные данные агрегации / анализа Storm будут храниться в Кассандре. Я вижу некоторые реализации, передающие все данные из Kafka в Storm, а затем два вывода из Storm. Однако я'Я хотел бы устранить зависимость Storm для хранения необработанных данных.

Это возможно? Вам известны какие-либо документы / примеры / реализации, подобные этой?

Кроме того, Кафка имеет хорошую поддержку хранилища S3?

Я видел Camus для хранения в HDFS - вы просто запускаете эту работу через cron для постоянной загрузки данных из Kafka в HDFS? Что произойдет, если второй экземпляр задания начнется до завершения предыдущего? Наконец, Камю будет работать с S3?

Спасибо, я ценю это!

Ответы на вопрос(4)

Ваш ответ на вопрос