Configuración y configuración de JanusGraph para un clúster Spark y Cassandra

Question

May 05, 2017, 02:55 PM

janusgraph cassandra titan apache-spark hadoop

Configuración y configuración de JanusGraph para un clúster Spark y Cassandra

Estoy ejecutando JanusGraph (0.1.0) con Spark (1.6.1) en una sola máquina. Hice mi configuración como se describeaquí. Al acceder al gráfico en la consola gremlin con el SparkGraphComputer, siempre está vacío. No puedo encontrar ningún error en los archivos de registro, es solo un gráfico vacío.

¿Alguien está usando JanusGraph con Spark y puede compartir su configuración y propiedades?

Usando un JanusGraph, obtengo la Salida esperada:

gremlin> graph=JanusGraphFactory.open('conf/test.properties')
==>standardjanusgraph[cassandrathrift:[127.0.0.1]]
gremlin> g=graph.traversal()
==>graphtraversalsource[standardjanusgraph[cassandrathrift:[127.0.0.1]], standard]
gremlin> g.V().count()
14:26:10 WARN  org.janusgraph.graphdb.transaction.StandardJanusGraphTx  - Query requires iterating over all vertices [()]. For better performance, use indexes
==>1000001
gremlin>

Usando un HadoopGraph con Spark como GraphComputer, el gráfico está vacío:

gremlin> graph=GraphFactory.open('conf/test.properties')
==>hadoopgraph[cassandrainputformat->gryooutputformat]
gremlin> g=graph.traversal().withComputer(SparkGraphComputer)
==>graphtraversalsource[hadoopgraph[cassandrainputformat->gryooutputformat], sparkgraphcomputer]
gremlin> g.V().count()
            ==>0==============================================>   (14 + 1) / 15]

Mi conf / test.properties:

#
# Hadoop Graph Configuration
#
gremlin.graph=org.apache.tinkerpop.gremlin.hadoop.structure.HadoopGraph
gremlin.hadoop.graphInputFormat=org.janusgraph.hadoop.formats.cassandra.CassandraInputFormat
gremlin.hadoop.graphOutputFormat=org.apache.tinkerpop.gremlin.hadoop.structure.io.gryo.GryoOutputFormat
gremlin.hadoop.memoryOutputFormat=org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat
gremlin.hadoop.memoryOutputFormat=org.apache.tinkerpop.gremlin.hadoop.structure.io.gryo.GryoOutputFormat

gremlin.hadoop.deriveMemory=false
gremlin.hadoop.jarsInDistributedCache=true
gremlin.hadoop.inputLocation=none
gremlin.hadoop.outputLocation=output

#
# Titan Cassandra InputFormat configuration
#
janusgraphmr.ioformat.conf.storage.backend=cassandrathrift
janusgraphmr.ioformat.conf.storage.hostname=127.0.0.1
janusgraphmr.ioformat.conf.storage.keyspace=janusgraph
storage.backend=cassandrathrift
storage.hostname=127.0.0.1
storage.keyspace=janusgraph

#
# Apache Cassandra InputFormat configuration
#
cassandra.input.partitioner.class=org.apache.cassandra.dht.Murmur3Partitioner
cassandra.input.keyspace=janusgraph
cassandra.input.predicate=0c00020b0001000000000b000200000000020003000800047fffffff0000
cassandra.input.columnfamily=edgestore
cassandra.range.batch.size=2147483647

#
# SparkGraphComputer Configuration
#
spark.master=spark://127.0.0.1:7077
spark.serializer=org.apache.spark.serializer.KryoSerializer
spark.executor.memory=100g

gremlin.spark.persistContext=true
gremlin.hadoop.defaultGraphComputer=org.apache.tinkerpop.gremlin.spark.process.computer.SparkGraphComputer

HDFS parece estar configurado correctamente como se describeaquí:

gremlin> hdfs
==>storage[DFS[DFSClient[clientName=DFSClient_NONMAPREDUCE_178390072_1, ugi=cassandra (auth:SIMPLE)]]]

Deja tu comentario

Respuestas a la pregunta(1)

Su respuesta a la pregunta

Preguntas populares

0 la respuesta

Cómo usar Rowspan en Gridview solo para la 1ª columna

0 la respuesta

Bootstrap 3 / mostrando modal no funciona con el modo javascript

0 la respuesta

¿Cómo comienzo el objetivo de "compilación" de Maven al guardar en Eclipse?

0 la respuesta

Cómo obtener el icono asociado de un archivo compartido de red

0 la respuesta

analizando JSON en nodejs