Resultados de la búsqueda a petición "apache-spark"
Spark SQL falla porque "El grupo constante ha superado el límite de JVM de 0xFFFF"
Estoy ejecutando este código en EMR 4.6.0 + Spark 1.6.1: val sqlContext = SQLContext.getOrCreate(sc) val inputRDD = sqlContext.read.json(input) try { inputRDD.filter("`first_field` is not null OR `second_field` is not ...
Recupere los primeros n en cada grupo de un DataFrame en pyspark
Hay un DataFrame en pyspark con los siguientes datos: user_id object_id score user_1 object_1 3 user_1 object_1 1 user_1 object_2 2 user_2 object_1 5 user_2 object_2 2 user_2 object_2 6Lo que espero es devolver 2 registros en cada grupo con el ...
spark.sql.crossJoin.enabled para Spark 2.x
Estoy usando la 'vista previa' de Google DataProc Image 1.1 con Spark 2.0.0. Para completar una de mis operaciones, tengo que completar un producto cartesiano. Desde la versión 2.0.0 se ha creado un parámetro de configuración de chispa ...
¿Cómo ver los registros de un trabajo de chispa después de que se haya completado y el contexto esté cerrado?
Estoy corriendopyspark, spark 1.3, standalone mode, client mode. Estoy tratando de investigar mi trabajo de chispa mirando los trabajos del pasado y comparándolos. Quiero ver sus registros, los ajustes de configuración bajo los cuales se ...
ID no enteros en Spark MLlib ALS
Me gustaria usar val ratings = data.map(_.split(',') match { case Array(user,item,rate) => Rating(user.toInt,item.toInt,rate.toFloat) }) val model = ALS.train(ratings,rank,numIterations,alpha)Sin embargo, los datos de usuario que obtengo se ...
El registro de variables locales definido en un ámbito de cobertura debe ser final o efectivamente final
Soy nuevo en lambda y Java8. Estoy enfrentando el siguiente error. El registro de variables locales definido en un ámbito de cobertura debe ser final o efectivamente final public JavaRDD<String> modify(JavaRDD<String> filteredRdd) { ...
Spark Scala - java.util.NoSuchElementException & Data Cleaning
He tenido unproblema similar antes [https://stackoverflow.com/questions/38002753/scala-spark-dataframe-show-throws-java-util-nosuchelementexception-after-a] , pero estoy buscando una respuesta generalizable. estoy ...
¿Definir un UDF que acepte una matriz de objetos en un Spark DataFrame?
Al trabajar con los marcos de datos de Spark, se requieren funciones definidas por el usuario (UDF) para asignar datos en columnas. Las UDF requieren que los tipos de argumento se especifiquen explícitamente. En mi caso, necesito manipular una ...
Cómo obligar a Spark a evaluar las operaciones de DataFrame en línea
De acuerdo con laSpark RDD docs [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas las transformaciones en Spark son perezosas, ya que no calculan sus resultados de inmediato ... Este diseño permite que Spark se ...
Ejecute SQL en Encender caché de objetos binarios
Estoy creando un caché de BinaryObject a partir de un marco de datos y luego quiero ejecutar SQL en ese caché de encendido. Aquí está mi código dondebank es el marco de datos que contiene tres campos (id, nombre y edad): val ic = new ...