Resultados de la búsqueda a petición "pyspark-sql"

1 la respuesta

Error al usar la tabla INSERT INTO ON DUPLICATE KEY, utilizando una matriz de bucle for

Estoy trabajando en actualizar una base de datos mysql usando pyspark framework y ejecutándome en los servicios de AWS Glue. Tengo un marco de datos de la siguiente manera: df2= sqlContext.createDataFrame([("xxx1","81A01","TERR ...

5 la respuesta

PySpark Dataframe del Diccionario Python sin Pandas

Estoy tratando de convertir el siguiente Pythondict en PySpark DataFrame pero no obtengo el resultado esperado. dict_lst = {'letters': ['a', 'b', 'c'], 'numbers': [10, 20, 30]} df_dict = sc.parallelize([dict_lst]).toDF() # Result not as ...

0 la respuesta

¿Cómo comparar los encabezados de df con otros encabezados de df usando Fuzzy Matching en pyspark?

He creado 3 marcos de datos ejecutando el siguiente código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| He comparado los ...

1 la respuesta

Filter array column content

Estoy usando pyspark 2.3.1 y me gustaría filtrar los elementos de la matriz con una expresión y no con udf: >>> df = spark.createDataFrame([(1, "A", [1,2,3,4]), (2, "B", [1,2,3,4,5])],["col1", "col2", "col3"]) >>> ...

2 la respuesta

PySpark: ¿Cómo crear un JSON anidado a partir del marco de datos de chispa?

Estoy tratando de crear un json anidado a partir de mi marco de datos de chispa que tiene datos en la siguiente estructura. El siguiente código está creando un json simple con clave y valor. Podrias ayudarme por ...

1 la respuesta

Cómo TRUNCAR y / o usar comodines con Databrick

Estoy tratando de escribir un script en databricks que seleccionará un archivo basado en ciertos caracteres en el nombre del archivo o solo en la fecha en el archivo. Por ejemplo, el siguiente archivo tiene el siguiente aspecto: ...

1 la respuesta

¿Cómo crear un json anidado en Pyspark?

Estoy tratando de crear un json anidado a partir de los datos a continuación. Solo los nombres de campo comosegid yval son constantes, el resto no es constante. Necesito ponerlos en la lista de categorías. Podrias ayudarme por favor ...

1 la respuesta

mplementación de @Pyspark de DATEADD

Tengo mi código T-SQL como se muestra a continuación cast( dateadd(minute, - 240, tmp_view_tos_lenelgate_qry11.eventdate) as date Cómo implementarDATE_ADD funtion en PYSPARK?