Resultados de la búsqueda a petición "pyspark-sql"

1 la respuesta

mplementación de @Pyspark de DATEADD

Tengo mi código T-SQL como se muestra a continuación cast( dateadd(minute, - 240, tmp_view_tos_lenelgate_qry11.eventdate) as date Cómo implementarDATE_ADD funtion en PYSPARK?

1 la respuesta

¿Cómo crear un json anidado en Pyspark?

Estoy tratando de crear un json anidado a partir de los datos a continuación. Solo los nombres de campo comosegid yval son constantes, el resto no es constante. Necesito ponerlos en la lista de categorías. Podrias ayudarme por favor ...

1 la respuesta

Cómo TRUNCAR y / o usar comodines con Databrick

Estoy tratando de escribir un script en databricks que seleccionará un archivo basado en ciertos caracteres en el nombre del archivo o solo en la fecha en el archivo. Por ejemplo, el siguiente archivo tiene el siguiente aspecto: ...

2 la respuesta

PySpark: ¿Cómo crear un JSON anidado a partir del marco de datos de chispa?

Estoy tratando de crear un json anidado a partir de mi marco de datos de chispa que tiene datos en la siguiente estructura. El siguiente código está creando un json simple con clave y valor. Podrias ayudarme por ...

1 la respuesta

Filter array column content

Estoy usando pyspark 2.3.1 y me gustaría filtrar los elementos de la matriz con una expresión y no con udf: >>> df = spark.createDataFrame([(1, "A", [1,2,3,4]), (2, "B", [1,2,3,4,5])],["col1", "col2", "col3"]) >>> ...

0 la respuesta

¿Cómo comparar los encabezados de df con otros encabezados de df usando Fuzzy Matching en pyspark?

He creado 3 marcos de datos ejecutando el siguiente código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| He comparado los ...

5 la respuesta

PySpark Dataframe del Diccionario Python sin Pandas

Estoy tratando de convertir el siguiente Pythondict en PySpark DataFrame pero no obtengo el resultado esperado. dict_lst = {'letters': ['a', 'b', 'c'], 'numbers': [10, 20, 30]} df_dict = sc.parallelize([dict_lst]).toDF() # Result not as ...

1 la respuesta

Error al usar la tabla INSERT INTO ON DUPLICATE KEY, utilizando una matriz de bucle for

Estoy trabajando en actualizar una base de datos mysql usando pyspark framework y ejecutándome en los servicios de AWS Glue. Tengo un marco de datos de la siguiente manera: df2= sqlContext.createDataFrame([("xxx1","81A01","TERR ...

1 la respuesta

Contar el número de filas duplicadas en SPARKSQL

Tengo un requisito donde necesito contar el número de filas duplicadas en SparkSQL para las tablas de Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import ...

1 la respuesta

Aplicar una transformación a múltiples columnas pyspark dataframe

Supongamos que tengo el siguiente marco de datos de chispa: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que se puede crear usando el siguiente ...