Resultados de la búsqueda a petición "apache-spark"

7 la respuesta

¿Cómo puedo depurar la aplicación de chispa localmente?

Soy muy nuevo en la chispa y me gustaría aprender paso a paso cómo depurar una aplicación de chispa localmente. ¿Podría alguien detallar los pasos necesarios para hacer esto? Puedo ejecutar localmente la simpleApp en el sitio web de spark desde ...

2 la respuesta

¿Cómo usar Spark SQL DataFrame con flatMap?

Estoy usando la API de Spark Scala. Tengo un Spark SQL DataFrame (leído desde un archivo Avro) con el siguiente esquema: root |-- ids: array (nullable = true) | |-- element: map (containsNull = true) | | |-- key: integer | | |-- value: string ...

2 la respuesta

Spark: ¿qué tipo de instancia se prefiere para el clúster de AWS EMR? [cerrado]

Estoy ejecutando algunos algoritmos de aprendizaje automático en el clúster EMR Spark. Tengo curiosidad sobre qué tipo de instancia usar para poder obtener el aumento óptimo de costo / rendimiento. Para el mismo nivel de precios, puedo elegir ...

3 la respuesta

Spark - “paquete sbt” - “value $ no es miembro de StringContext” - ¿Falta el complemento Scala?

Cuando ejecuto "sbt package" desde la línea de comandos para una pequeña aplicación Spark Scala, obtengo el error de compilación "value $ no es miembro de StringContext" en la siguiente línea de código: val joined = ordered.join(empLogins, ...

1 la respuesta

La variable LinkedHashMap no es accesible fuera del bucle foreach

Aquí está mi código. var link = scala.collection.mutable.LinkedHashMap[String, String]() var fieldTypeMapRDD = fixedRDD.mapPartitionsWithIndex((idx, itr) => itr.map(s => (s(8), s(9)))) fieldTypeMapRDD.foreach { i => println(i) link.put(i._1, ...

2 la respuesta

Cómo actualizar Spark MatrixFactorizationModel para ALS

Construyo un sistema de recomendación simple para MovieLens DB inspirado ...

1 la respuesta

¿La estructura anidada de Spark DataFrame está limitada para la selección?

Tengo un archivo json con algunos datos, puedo crear DataFrame a partir de él y el esquema para una parte en particular en la que estoy interesado es el siguiente: val json: DataFrame = sqlc.load("entities_with_address2.json", "json") root |-- ...

1 la respuesta

Ordenar por valor en Spark pairRDD desde (Key, Value) donde el valor es de spark-sql

He creado un mapa como este: val b = a.map(x => (x(0), x) )Aquí b es del tipo org.apache.spark.rdd.RDD[(Any, org.apache.spark.sql.Row)] ¿Cómo puedo ordenar el PairRDD dentro de cada clave usando un campo de la fila de valor?Después de ...

2 la respuesta

Chispear cuando se unen muchos RDD arroja error de desbordamiento

Cuando uso "++" para combinar una gran cantidad de RDD, obtuve un error de pila sobre error de flujo. Spark versión 1.3.1 Entorno: hilo-cliente. --controlador-memoria 8G El número de RDD es superior a 4000. Cada RDD se lee desde un archivo de ...

2 la respuesta

spark + sbt-assembly: "deduplicar: diferentes contenidos de archivo encontrados en lo siguiente"

Ejecuté la aplicación de chispa y quiero empacar las clases de prueba en el tarro gordo. Lo extraño es que ejecuté "sbt assembly" con éxito, pero fallé cuando ejecuté "sbt test: assembly". Lo intentésbt-assembly: incluyendo clases de ...