Resultados de la búsqueda a petición "apache-spark"
¿Cómo puedo depurar la aplicación de chispa localmente?
Soy muy nuevo en la chispa y me gustaría aprender paso a paso cómo depurar una aplicación de chispa localmente. ¿Podría alguien detallar los pasos necesarios para hacer esto? Puedo ejecutar localmente la simpleApp en el sitio web de spark desde ...
¿Cómo usar Spark SQL DataFrame con flatMap?
Estoy usando la API de Spark Scala. Tengo un Spark SQL DataFrame (leído desde un archivo Avro) con el siguiente esquema: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key: integer | | |-- value: string ...
Spark: ¿qué tipo de instancia se prefiere para el clúster de AWS EMR? [cerrado]
Estoy ejecutando algunos algoritmos de aprendizaje automático en el clúster EMR Spark. Tengo curiosidad sobre qué tipo de instancia usar para poder obtener el aumento óptimo de costo / rendimiento. Para el mismo nivel de precios, puedo elegir ...
Spark - “paquete sbt” - “value $ no es miembro de StringContext” - ¿Falta el complemento Scala?
Cuando ejecuto "sbt package" desde la línea de comandos para una pequeña aplicación Spark Scala, obtengo el error de compilación "value $ no es miembro de StringContext" en la siguiente línea de código: val joined = ordered.join(empLogins, ...
La variable LinkedHashMap no es accesible fuera del bucle foreach
Aquí está mi código. var link = scala.collection.mutable.LinkedHashMap[String, String]() var fieldTypeMapRDD = fixedRDD.mapPartitionsWithIndex((idx, itr) => itr.map(s => (s(8), s(9)))) fieldTypeMapRDD.foreach { i => println(i) link.put(i._1, ...
Cómo actualizar Spark MatrixFactorizationModel para ALS
Construyo un sistema de recomendación simple para MovieLens DB inspirado ...
¿La estructura anidada de Spark DataFrame está limitada para la selección?
Tengo un archivo json con algunos datos, puedo crear DataFrame a partir de él y el esquema para una parte en particular en la que estoy interesado es el siguiente: val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- ...
Ordenar por valor en Spark pairRDD desde (Key, Value) donde el valor es de spark-sql
He creado un mapa como este: val b = a.map(x => (x(0), x) )Aquí b es del tipo org.apache.spark.rdd.RDD[(Any, org.apache.spark.sql.Row)] ¿Cómo puedo ordenar el PairRDD dentro de cada clave usando un campo de la fila de valor?Después de ...
Chispear cuando se unen muchos RDD arroja error de desbordamiento
Cuando uso "++" para combinar una gran cantidad de RDD, obtuve un error de pila sobre error de flujo. Spark versión 1.3.1 Entorno: hilo-cliente. --controlador-memoria 8G El número de RDD es superior a 4000. Cada RDD se lee desde un archivo de ...
spark + sbt-assembly: "deduplicar: diferentes contenidos de archivo encontrados en lo siguiente"
Ejecuté la aplicación de chispa y quiero empacar las clases de prueba en el tarro gordo. Lo extraño es que ejecuté "sbt assembly" con éxito, pero fallé cuando ejecuté "sbt test: assembly". Lo intentésbt-assembly: incluyendo clases de ...