Resultados de la búsqueda a petición "apache-spark"
¿Cuál es la forma preferida de evitar las inyecciones de SQL en Spark-SQL (en Hive)
Asumir un SchemaRDDrdd con una mesa registradacustomer. Desea filtrar registros de acuerdo con una entrada del usuario. Una idea que puede tener para hacer esto es la siguiente: rdd.sqlContext.sql(s"SELECT * FROM customer WHERE ...
Se genera una excepción no serializable al analizar JSON con json4s
Me he encontrado con un problema al intentar analizar json en mi trabajo de chispa. Estoy usandospark 1.1.0, json4s, y elCassandra Spark Connector. La excepción lanzada es: java.io.NotSerializableException: org.json4s.DefaultFormats Examinando ...
¿Puedo tener varias versiones de chispa instaladas en CDH?
Estoy usando cdh5.1.0, que ya tiene instalada la chispa predeterminada. Sin embargo, quiero usar Spark 1.3. ¿Puedo instalar también esta versión en cdh5.1.0? ¿Cómo es posible configurarlos? ¿La nueva versión de spark también se monitoreará a ...
¿Cómo establecer y obtener variables estáticas de la chispa?
Tengo una clase como esta: public class Test { private static String name; public static String getName() { return name; } public static void setName(String name) { Test.name = name; } public static void print() { System.out.println(name); } }en ...
Cómo verificar la versión de Spark
como se titula, ¿cómo sé qué versión de spark se ha instalado en CentOS? El sistema actual ha instalado cdh5.1.0.
¿Es posible crear RDD anidados en Apache Spark?
Estoy tratando de implementar el algoritmo vecino K-más cercano en Spark. Me preguntaba si es posible trabajar con RDD anidados. Esto hará que mi vida sea mucho más fácil. Considere el siguiente fragmento de código. public static void main ...
crear y mostrar marcos de datos de chispa a partir de un simple archivo json
La siguiente prueba simple json DataFrame funciona bien cuando se ejecuta Spark en modo local. Aquí está el fragmento de Scala, pero también conseguí con éxito lo mismo trabajando en Java y Python: sparkContext.addFile(jsonPath) val sqlContext = ...
enviar script .py en Spark sin instalación de Hadoop
Tengo el siguiente script de Python simple de recuento de palabras. from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) from operator import add ...
Tarea no serializable cuando se usa un objeto en REPL
Entonces, otra pregunta SO me llevó a intentar lo siguiente: object Foo{ def f = 1 } sc.parallelize(List(1)).map(x=>{ val myF = Foo.f _ x + myF() }Lo que funciona, pero lo siguiente no funciona: object Foo{ def f = 1 def run(rdd: ...
¿Chispa ordenar por clave y luego agrupar por para que se ordene iterable?
Tengo un par RDD(K, V) con la llave que contiene untime y unID. Me gustaría obtener un par RDD del formulario(K, Iterable<V>) donde las claves se agrupan por id y el iterable se ordena por tiempo. Actualmente estoy usandosortByKey().groupByKey() ...