Einrichtung und Konfiguration von Titan für einen Spark-Cluster und Cassandra

Auf der Aurelius-Mailing-Liste sowie hier zum Stackoverflow gibt es bereits einige Fragen zu bestimmten Problemen bei der Konfiguration von Titan, damit es mit Spark funktioniert. Was meiner Meinung nach jedoch fehlt, ist eine allgemeine Beschreibung eines einfachen Setups, das Titan und Spark verwendet.

Was ich suche, ist ein etwas minimales Setup, das empfohlene Einstellungen verwendet. Beispiel: Für Cassandra sollte der Replikationsfaktor 3 und für die Analyse ein dediziertes Datencenter verwendet werden.

Von den Informationen, die ich in der Dokumentation von Spark, Titan und Cassandra gefunden habe, könnte ein solches minimales Setup so aussehen:

Echtzeitverarbeitung DC: 3 Knoten mit Titan + Cassandra (RF: 3)Analytics DC: 1 Spark Master + 3 Spark Slaves mit Cassandra (RF: 3)

Einige Fragen zu diesem Setup und zu Titan + Spark im Allgemeinen:

Ist das Setup korrekt? Sollte Titan auch auf den 3 Spark-Slave-Knoten und / oder dem Spark-Master installiert sein? Gibt es ein anderes Setup, das Sie stattdessen verwenden würden?Lesen die Spark-Slaves nur Daten aus dem Analytics-DC und im Idealfall sogar aus Cassandra auf demselben Knoten?

Möglicherweise kann jemand sogar eine Konfigurationsdatei freigeben, die ein solches (oder ein besseres) Setup unterstützt.

Antworten auf die Frage(2)

Ihre Antwort auf die Frage