Resultados de la búsqueda a petición "apache-spark"
Spark especifica múltiples condiciones de columna para la unión de marco de datos
Cómo dar más condiciones de columna al unir dos marcos de datos. Por ejemplo, quiero ejecutar lo siguiente: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ...
¿Diferencia entre los vectores de chispa y el vector inmutable de escala?
Estoy escribiendo un proyecto para Spark 1.4 en Scala y actualmente estoy entre convertir mis datos de entrada iniciales enspark.mllib.linalg.Vectors yscala.immutable.Vector con el que luego quiero trabajar en mi algoritmo. ¿Podría alguien ...
¿Cómo registro una función en sqlContext UDF en scala?
Tengo un método llamado getAge (timestamp: Long) y quiero registrar esto como una función sql. yo tengo sqlContext.udf.register("getAge",getAge)Pero me dice que necesito argumentos o uso _ luego, intenté usar _ pero me da un error. ¿Cómo lo ...
Error SparkR en sparkR.init (master = “local”) en RStudio
He instalado el paquete SparkR de la distribución Spark en la biblioteca R. Puedo llamar al siguiente comando y parece funcionar correctamente:library(SparkR) Sin embargo, cuando trato de obtener el contexto de Spark usando el ...
¿Por qué la transmisión por chispa no funciona bien cuando uso la aplicación extendidas?
El primer código arroja una excepción de puntero nulo. object TryBroadcast extends App{ val conf = new SparkConf().setAppName("o_o") val sc = new SparkContext(conf) val sample = sc.parallelize(1 to 1024) val bro = sc.broadcast(6666) val ...
java.util.Date no es compatible
Quiero escribirRDD aMYSQL, cualRDD contienejava.util.Date tipo. rdd.map(f=> FeatureData( f.get("name").toString, f.get("value").toString.toDouble, f.get("time").asInstanceOf[Date], f.get("period").toString)) .toDF()En estoRDD la clave detimeEl ...
Guarde el marco de datos de Spark como una tabla particionada dinámica en Hive
Tengo una aplicación de muestra que trabaja para leer archivos csv en un marco de datos. El marco de datos se puede almacenar en una tabla Hive en formato de parquet utilizando el métododf.saveAsTable(tablename,mode). El código anterior funciona ...
conductor de chispa no encontrado
Estoy tratando de escribir un marco de datos en sqlserver usando spark. Estoy usando el método escribir para dataframewriter para escribir en el servidor sql. Usando DriverManager.getConnection Puedo obtener la conexión de sqlserver y escribir, ...
¿Cómo puedo forzar a Spark a ejecutar código?
¿Cómo puedo forzar a Spark a ejecutar una llamada al mapa, incluso si cree que no es necesario ejecutarlo debido a su evaluación diferida? He intentado ponercache() con la llamada al mapa, pero eso todavía no funciona. Mi método de mapa ...
SparkContext no serializable dentro de un objeto complementario
Actualmente estoy tratando de extender una aplicación de Machine Learning que usa Scala y Spark. Estoy usando la estructura de un proyecto anterior de Dieterich Lawson que encontré en ...