Przepływ danych Kafka Storm HDFS / S3
Nie jest jasne, czy możesz zrobić fan-out (duplikację) w Kafce, tak jak w Flume.
Chciałbym, aby Kafka zapisywał dane na HDFS lub S3 i wysyłał duplikat tych danych do Storm w celu przetwarzania w czasie rzeczywistym. Dane wyjściowe agregacji / analizy Storm będą przechowywane w Cassandrze. Widzę niektóre implementacje przepływające wszystkie dane z Kafki do Storm, a następnie dwa wyjścia z Storm. Chciałbym jednak wyeliminować zależność Storm dla surowego przechowywania danych.
czy to możliwe? Czy wiesz o jakiejkolwiek dokumentacji / przykładach / implementacjach takich jak ta?
Czy Kafka ma również dobre wsparcie dla pamięci S3?
Widziałem Camusa do przechowywania w HDFS - czy po prostu uruchamiasz to zadanie przez cron, aby stale ładować dane z Kafki do HDFS? Co się stanie, jeśli drugie wystąpienie zadania rozpocznie się przed zakończeniem poprzedniego? Wreszcie, czy Camus będzie współpracował z S3?
Dzięki doceniam to!