Przepływ danych Kafka Storm HDFS / S3

Question

Jun 22, 2013, 11:59 PM

Przepływ danych Kafka Storm HDFS / S3

Nie jest jasne, czy możesz zrobić fan-out (duplikację) w Kafce, tak jak w Flume.

Chciałbym, aby Kafka zapisywał dane na HDFS lub S3 i wysyłał duplikat tych danych do Storm w celu przetwarzania w czasie rzeczywistym. Dane wyjściowe agregacji / analizy Storm będą przechowywane w Cassandrze. Widzę niektóre implementacje przepływające wszystkie dane z Kafki do Storm, a następnie dwa wyjścia z Storm. Chciałbym jednak wyeliminować zależność Storm dla surowego przechowywania danych.

czy to możliwe? Czy wiesz o jakiejkolwiek dokumentacji / przykładach / implementacjach takich jak ta?

Czy Kafka ma również dobre wsparcie dla pamięci S3?

Widziałem Camusa do przechowywania w HDFS - czy po prostu uruchamiasz to zadanie przez cron, aby stale ładować dane z Kafki do HDFS? Co się stanie, jeśli drugie wystąpienie zadania rozpocznie się przed zakończeniem poprzedniego? Wreszcie, czy Camus będzie współpracował z S3?

Dzięki doceniam to!