Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

¿Cómo definir una función de agregación personalizada para sumar una columna de vectores?

Tengo un DataFrame de dos columnas,ID de tipoInt yVec de tipoVector (org.apache.spark.mllib.linalg.Vector) El DataFrame tiene el siguiente aspecto: ID,Vec 1,[0,0,5] 1,[4,0,1] 1,[1,2,1] 2,[7,5,0] 2,[3,3,4] 3,[0,8,1] 3,[0,0,1] 3,[7,7,7] ....Me ...

2 la respuesta

Cuente el número de entradas que no son NaN en cada columna del marco de datos Spark con Pyspark

Tengo un conjunto de datos muy grande que se carga en Hive. Consiste en aproximadamente 1.9 millones de filas y 1450 columnas. Necesito determinar la "cobertura" de cada una de las columnas, es decir, la fracción de filas que tienen valores no ...

2 la respuesta

Esquema de Avro para provocar StructType

Esto es efectivamente lo mismo que miPregunta anterior [https://stackoverflow.com/questions/33807145/evolving-a-schema-with-spark-dataframe/] , pero usando Avro en lugar de JSON como formato de datos. Estoy trabajando con un marco de datos de ...

3 la respuesta

Diferencia entre filtro y donde en scala spark sql

He probado ambos pero funciona igual ejemplo val items = List(1, 2, 3)usando filtro employees.filter($"emp_id".isin(items:_*)).showusando donde employees.where($"emp_id".isin(items:_*)).showEl resultado es igual para ...

3 la respuesta

¿Cómo puedo crear un Spark DataFrame a partir de una matriz anidada de elemento struct?

He leído un archivo JSON en Spark. Este archivo tiene la siguiente estructura: scala> tweetBlob.printSchema root |-- related: struct (nullable = true) | |-- next: struct (nullable = true) | | |-- href: string (nullable = true) |-- search: struct ...

2 la respuesta

¿SparkSQL admite subconsultas?

Estoy ejecutando esta consulta en Spark Shell pero me da un error, sqlContext.sql( "select sal from samplecsv where sal < (select MAX(sal) from samplecsv)" ).collect().foreach(println)error: java.lang.RuntimeException: [1.47] error: ``) '' ...

8 la respuesta

¿Cómo seleccionar la primera fila de cada grupo?

Tengo un DataFrame generado de la siguiente manera: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc))Los resultados se ven así: +----+--------+----------+ |Hour|Category|TotalValue| ...

1 la respuesta

SparkSQL: suma condicional usando dos columnas

Espero me puedas ayudar con esto. Tengo un DF de la siguiente manera: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...

1 la respuesta

Cómo filtrar por rango de fechas en Spark SQL

Estoy tratando de filtrar el rango de fechas de los siguientes datos usando ladrillos de datos, que devuelve nulo como respuesta. Mis datos csv se ven así: ID, Desc, Week_Ending_Date 100, AAA, 13-06-2015 101, BBB, 11-07-2015 102, CCC, 15-08-2015 ...

1 la respuesta

Conéctese a SQLite en Apache Spark

Quiero ejecutar una función personalizada en todas las tablas en una base de datos SQLite. La función es más o menos la misma, pero depende del esquema de la tabla individual. Además, las tablas y sus esquemas solo se conocen en tiempo ...