Por qué Apache Spark está realizando los filtros en el cliente

Question

Jun 30, 2015, 05:08 PM

java spark-cassandra-connector apache-spark cassandra-2.0 out-of-memory

Por qué Apache Spark está realizando los filtros en el cliente

Ser novato en apache spark, enfrentando un problema al buscar datos de Cassandra en Spark.

List<String> dates = Arrays.asList("2015-01-21","2015-01-22");
CassandraJavaRDD<A> aRDD = CassandraJavaUtil.javaFunctions(sc).
                    cassandraTable("testing", "cf_text",CassandraJavaUtil.mapRowTo(A.class, colMap)).
                    where("Id=? and date IN ?","Open",dates);

Esta consulta no está filtrando datos en el servidor cassandra. Mientras esta declaración de Java está ejecutando su disparo en la memoria y finalmente arrojando la excepción chispa java.lang.OutOfMemoryError. La consulta debe filtrar los datos en el servidor cassandra en lugar del lado del cliente como se menciona enhttps://github.com/datastax/spark-cassandra-connector/blob/master/doc/3_selection.md.

Mientras realizo la consulta con filtros en el cassandra cqlsh, funciona bien pero realizar la consulta sin el filtro (donde la cláusula) está dando el tiempo de espera que se espera. Entonces está claro que la chispa no está aplicando los filtros en el lado del cliente.

SparkConf conf = new SparkConf();
            conf.setAppName("Test");
            conf.setMaster("local[8]");
            conf.set("spark.cassandra.connection.host", "192.168.1.15")

Por qué los filtros se aplican en el lado del cliente y cómo se puede mejorar aplicar los filtros en el lado del servidor.

¿Cómo podríamos configurar el grupo de chispas en la parte superior del grupo de cassandra en la plataforma de Windows?