Resultados de la búsqueda a petición "pyspark-sql"

3 la respuesta

Error de PySpark: AttributeError: el objeto 'NoneType' no tiene el atributo '_jvm'

Tengo un conjunto de datos de marca de tiempo que está en formato de Y he escrito un udf en pyspark para procesar este conjunto de datos y devolverlo como Mapa de valores clave. Pero me estoy poniendo debajo del mensaje de error. Conjunto de ...

1 la respuesta

Spark Structured Streaming usando sockets, configure SCHEMA, Display DATAFRAME en la consola

¿Cómo puedo configurar un esquema para una transmisión?DataFrame en PySpark from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import ...

1 la respuesta

PySpark: calcule el máximo de filas del subconjunto de columnas y agregue a un marco de datos existente

Me gustaría calcular el máximo de un subconjunto de columnas para cada fila y agregarlo como una nueva columna para el existenteDataframe. Logré hacer esto de una manera muy incómoda: def add_colmax(df,subset_columns,colnm): ''' calculate the ...

1 la respuesta

Consideraciones de seguridad de Spark SQL

¿Cuáles son las consideraciones de seguridad al aceptar y ejecutar consultas SQL arbitrarias de chispa? Imagine la siguiente configuración: Dos archivos en hdfs se registran como tablasa_secrets yb_secrets: # must only be accessed by clients ...

1 la respuesta

Spark 2.0: redefiniendo los parámetros de SparkSession a través de GetOrCreate y NO viendo cambios en WebUI

Estoy usando Spark 2.0 con PySpark. Estoy redefiniendoSparkSession parámetros a través de unGetOrCreate Método que se introdujo en 2.0: Este método primero comprueba si hay una SparkSession predeterminada global válida y, en caso afirmativo, ...

2 la respuesta

¿Puedo leer varios archivos en un Spark Dataframe desde S3, pasando por encima de los inexistentes?

Me gustaría leer varios archivos de parquet en un marco de datos de S3. Actualmente, estoy usando el siguiente método para hacer esto: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...

1 la respuesta

Cómo hacer operaciones matemáticas con dos columnas en el marco de datos usando pyspark

Tengo un marco de datos con tres columnas "x", "y" y "z" x y z bn 12452 221 mb 14521 330 pl 12563 160 lo 22516 142Necesito crear otra columna derivada de esta fórmula. (m = z / y+z)Entonces, los nuevos marcos de datos deberían verse así: x y z ...

1 la respuesta

GroupByKey y cree listas de valores pyspark sql dataframe

Entonces tengo un marco de datos de chispa que se parece a: a | b | c 5 | 2 | 1 5 | 4 | 3 2 | 4 | 2 2 | 3 | 7Y quiero agrupar por columnaa, cree una lista de valores de la columna b, y olvídese de c. El marco de datos de salida sería: a | ...

2 la respuesta

Columna Spark Dataframe con el último carácter de otra columna

Estoy buscando una manera de obtener el último carácter de una cadena en una columna de marco de datos y colocarlo en otra columna. Tengo un marco de datos de Spark que se ve así: animal ====== cat mouse snakeQuiero algo como esto: lastchar ...

2 la respuesta

PySpark: obtenga el número de fila para cada fila de un grupo

Con pyspark, me gustaría poder agrupar un marco de datos de chispa, ordenar el grupo y luego proporcionar un número de fila. Entonces Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se convertiría Group Date row_num A 2000 0 A 2002 1 A 2007 2 B ...