Instalação e configuração do Titan para um cluster Spark e Cassandra

Já existem várias perguntas na lista de discussão aurelius, bem como aqui no stackoverflow, sobre problemas específicos com a configuração do Titan para que ele funcione com o Spark. Mas o que está faltando, na minha opinião, é uma descrição de alto nível de uma configuração simples que usa Titan e Spark.

O que estou procurando é uma configuração um pouco mínima que use as configurações recomendadas. Por exemplo, para Cassandra, o fator de replicação deve ser 3 e um datacenter dedicado deve ser usado para análise.

A partir das informações que encontrei na documentação do Spark, Titan e Cassandra, uma configuração tão mínima poderia ser assim:

Processamento em tempo real DC: 3 nós com Titan + Cassandra (RF: 3)DC do Analytics: 1 Spark master + 3 escravos Spark com Cassandra (RF: 3)

Algumas perguntas que tenho sobre essa configuração e o Titan + Spark em geral:

Essa configuração está correta?O Titan também deve ser instalado nos 3 nós escravos Spark e / ou no mestre mestre Spark?Existe outra configuração que você usaria?Os escravos do Spark lerão apenas dados do DC de análise e, idealmente, até de Cassandra no mesmo nó?

Talvez alguém possa compartilhar um arquivo de configuração que suporte essa configuração (ou melhor).

questionAnswers(1)

yourAnswerToTheQuestion