Resultados de la búsqueda a petición "apache-spark"

3 la respuesta

Spark SQL falla porque "El grupo constante ha superado el límite de JVM de 0xFFFF"

Estoy ejecutando este código en EMR 4.6.0 + Spark 1.6.1: val sqlContext = SQLContext.getOrCreate(sc) val inputRDD = sqlContext.read.json(input) try { inputRDD.filter("`first_field` is not null OR `second_field` is not ...

3 la respuesta

Recupere los primeros n en cada grupo de un DataFrame en pyspark

Hay un DataFrame en pyspark con los siguientes datos: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6Lo que espero es devolver 2 registros en cada grupo con el ...

3 la respuesta

spark.sql.crossJoin.enabled para Spark 2.x

Estoy usando la 'vista previa' de Google DataProc Image 1.1 con Spark 2.0.0. Para completar una de mis operaciones, tengo que completar un producto cartesiano. Desde la versión 2.0.0 se ha creado un parámetro de configuración de chispa ...

1 la respuesta

¿Cómo ver los registros de un trabajo de chispa después de que se haya completado y el contexto esté cerrado?

Estoy corriendopyspark, spark 1.3, standalone mode, client mode. Estoy tratando de investigar mi trabajo de chispa mirando los trabajos del pasado y comparándolos. Quiero ver sus registros, los ajustes de configuración bajo los cuales se ...

1 la respuesta

ID no enteros en Spark MLlib ALS

Me gustaria usar val ratings = data.map(_.split(',') match { case Array(user,item,rate) => Rating(user.toInt,item.toInt,rate.toFloat) }) val model = ALS.train(ratings,rank,numIterations,alpha)Sin embargo, los datos de usuario que obtengo se ...

3 la respuesta

El registro de variables locales definido en un ámbito de cobertura debe ser final o efectivamente final

Soy nuevo en lambda y Java8. Estoy enfrentando el siguiente error. El registro de variables locales definido en un ámbito de cobertura debe ser final o efectivamente final public JavaRDD<String> modify(JavaRDD<String> filteredRdd) { ...

0 la respuesta

Spark Scala - java.util.NoSuchElementException & Data Cleaning

He tenido unproblema similar antes [https://stackoverflow.com/questions/38002753/scala-spark-dataframe-show-throws-java-util-nosuchelementexception-after-a] , pero estoy buscando una respuesta generalizable. estoy ...

1 la respuesta

¿Definir un UDF que acepte una matriz de objetos en un Spark DataFrame?

Al trabajar con los marcos de datos de Spark, se requieren funciones definidas por el usuario (UDF) para asignar datos en columnas. Las UDF requieren que los tipos de argumento se especifiquen explícitamente. En mi caso, necesito manipular una ...

2 la respuesta

Cómo obligar a Spark a evaluar las operaciones de DataFrame en línea

De acuerdo con laSpark RDD docs [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas las transformaciones en Spark son perezosas, ya que no calculan sus resultados de inmediato ... Este diseño permite que Spark se ...

1 la respuesta

Ejecute SQL en Encender caché de objetos binarios

Estoy creando un caché de BinaryObject a partir de un marco de datos y luego quiero ejecutar SQL en ese caché de encendido. Aquí está mi código dondebank es el marco de datos que contiene tres campos (id, nombre y edad): val ic = new ...