Resultados de la búsqueda a petición "apache-spark"
SparkSQL: suma condicional usando dos columnas
Espero me puedas ayudar con esto. Tengo un DF de la siguiente manera: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...
¿SparkSQL admite subconsultas?
Estoy ejecutando esta consulta en Spark Shell pero me da un error, sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println)error: java.lang.RuntimeException: [1.47] error: ``) '' ...
Error de Numpy al imprimir un RDD en Spark con Ipython
Estoy tratando de imprimir unRDD utilizandoSpark enIpython y cuando hago eso me sale este error: --------------------------------------------------------------------------- Py4JJavaError Traceback (most recent call last) ...
¿Cómo actualizar Spark a la versión más nueva?
Tengo una máquina virtual que tieneSpark 1.3 en él, pero quiero actualizarlo aSpark 1.5 principalmente debido a ciertas funcionalidades compatibles que no estaban en 1.3. ¿Es posible que pueda actualizar elSpark versión de1.3 a1.5 y si es así, ...
¿Cómo puedo crear un Spark DataFrame a partir de una matriz anidada de elemento struct?
He leído un archivo JSON en Spark. Este archivo tiene la siguiente estructura: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable = true) |-- search: struct ...
¿Cómo seleccionar la primera fila de cada grupo?
Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc))Los resultados se ven así: +----+--------+----------+ |Hour|Category|TotalValue| ...
¿Cómo enumerar los RDD definidos en Spark Shell?
Tanto en los shells "spark-shell" como en "pyspark", creé muchos RDD, pero no pude encontrar ninguna manera de enumerar todos los RDD disponibles en mi sesión actual de Spark Shell.
Las expresiones lambda no son compatibles en este nivel de idioma [duplicado]
Esta pregunta ya tiene una respuesta aquí: Java "expresiones lambda no admitidas en este nivel de lenguaje" [/questions/22703412/java-lambda-expressions-not-supported-at-this-language-level] 23 respuestasTengo una clase de Java que usa Spark. ...
Devolución de múltiples matrices de la función agregada definida por el usuario (UDAF) en Apache Spark SQL
Estoy tratando de crear una función agregada definida por el usuario (UDAF) en Java usando Apache Spark SQL que devuelve múltiples matrices al finalizar. He buscado en línea y no puedo encontrar ningún ejemplo o sugerencia sobre ...
¿Quién puede dar una explicación clara para `combineByKey` en Spark?
Estoy aprendiendo chispa, pero no puedo entender esta funcióncombineByKey. >>> data = sc.parallelize([("A",1),("A",2),("B",1),("B",2),("C",1)] ) >>> data.combineByKey(lambda v : str(v)+"_", lambda c, v : c+"@"+str(v), lambda c1, c2 : ...