Resultados de la búsqueda a petición "apache-spark-sql"

2 la respuesta

¿Cómo saber qué consulta de conteo es la más rápida?

He estado explorando optimizaciones de consultas en las versiones recientes de Spark SQL 2.3.0-SNAPSHOT y noté diferentes planes físicos para consultas semánticamente idénticas. Supongamos que tengo que contar el número de filas en el siguiente ...

2 la respuesta

Intersección de matriz en Spark SQL

Tengo una tabla con una columna de tipo de matriz llamadawriter que tiene los valores comoarray[value1, value2], array[value2, value3].... etc. estoy haciendoself join para obtener resultados que tengan valores comunes entre matrices. Lo ...

1 la respuesta

¿Cómo usar Column.isin con la columna de matriz en join?

case class Foo1(codes:Seq[String], name:String) case class Foo2(code:String, description:String) val ds1 = Seq( Foo1(Seq("A"), "foo1"), Foo1(Seq("A", "B"), "foo2"), Foo1(Seq("B", "C", "D"), "foo3"), Foo1(Seq("C"), "foo4"), Foo1(Seq("C", "D"), ...

2 la respuesta

Columna Spark Dataframe con el último carácter de otra columna

Estoy buscando una manera de obtener el último carácter de una cadena en una columna de marco de datos y colocarlo en otra columna. Tengo un marco de datos de Spark que se ve así: animal ====== cat mouse snakeQuiero algo como esto: lastchar ...

2 la respuesta

PySpark: obtenga el número de fila para cada fila de un grupo

Con pyspark, me gustaría poder agrupar un marco de datos de chispa, ordenar el grupo y luego proporcionar un número de fila. Entonces Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se convertiría Group Date row_num A 2000 0 A 2002 1 A 2007 2 B ...

3 la respuesta

Diferencia entre dos filas en el marco de datos de Spark

Creé un marco de datos en Spark, por grupo por columna1 y fecha y calculé la cantidad. val table = df1.groupBy($"column1",$"date").sum("amount") Column1 |Date |Amount A |1-jul |1000 A |1-june |2000 A |1-May |2000 A |1-dec |3000 A |1-Nov |2000 ...

1 la respuesta

¿Cómo usar la especificación de ventana y la condición de unión por valores de columna?

Aquí está mi DF1 OrganizationId|^|AnnualPeriodId|^|InterimPeriodId|^|InterimNumber|^|FFAction 4295858898|^|204|^|205|^|1|^|I|!| 4295858898|^|204|^|208|^|2|^|I|!| 4295858898|^|204|^|209|^|2|^|I|!| ...

2 la respuesta

¿Cómo hacer lo contrario de explotar en PySpark?

Digamos que tengo unDataFrame con una columna para usuarios y otra columna para palabras que han escrito: Row(user='Bob', word='hello') Row(user='Bob', word='world') Row(user='Mary', word='Have') Row(user='Mary', word='a') Row(user='Mary', ...

3 la respuesta

Compare dos marcos de datos de Spark

Spark dataframe 1 -: +------+-------+---------+----+---+-------+ |city |product|date |sale|exp|wastage| +------+-------+---------+----+---+-------+ |city 1|prod 1 |9/29/2017|358 |975|193 | |city 1|prod 2 |8/25/2017|50 |687|201 | |city 1|prod ...

1 la respuesta

Cadena de conversión de Spark SQL a marca de tiempo

Soy nuevo en Spark SQL y estoy tratando de convertir una cadena en una marca de tiempo en un marco de datos de chispa. Tengo una cuerda que parece'2017-08-01T02:26:59.000Z' en una columna llamada time_string Mi código para convertir esta cadena ...