Настройка и настройка Titan для кластера Spark и Cassandra

В списке рассылки aurelius, а также здесь, в stackoverflow, уже есть несколько вопросов о конкретных проблемах с настройкой Titan для работы с Spark. Но чего мне не хватает, так это высокоуровневого описания простой установки, в которой используются Titan и Spark.

То, что я ищу, является несколько минимальной настройкой, которая использует рекомендуемые настройки. Например, для Cassandra коэффициент репликации должен быть равен 3, а для аналитики должен использоваться выделенный центр обработки данных.

Из информации, которую я нашел в документации Spark, Titan и Cassandra, такая минимальная установка может выглядеть следующим образом:

Обработка в реальном времени DC: 3 узла с Titan + Cassandra (RF: 3)Аналитика DC: 1 Spark Master + 3 Spark рабов с Кассандрой (RF: 3)

Некоторые вопросы, которые у меня есть об этой установке и о Titan + Spark в целом:

Это правильная установка?Следует ли также устанавливать Titan на 3 подчиненных узла Spark и / или на Spark Master?Есть ли другая настройка, которую вы бы использовали вместо этого?Будут ли ведомые Spark считывать данные только с аналитического центра обработки данных и в идеале даже с Cassandra на одном узле?

Может быть, кто-то даже может поделиться файлом конфигурации, который поддерживает такую ​​настройку (или лучше).

Ответы на вопрос(1)

Ваш ответ на вопрос