Resultados da pesquisa a pedido "pyspark-sql"

1 a resposta

mplementação @Pyspark do DATEADD

Eu tenho meu código T-SQL como mostrado abaixo cast( dateadd(minute, - 240, tmp_view_tos_lenelgate_qry11.eventdate) as dateComo implementarDATE_ADD função no PYSPARK?

1 a resposta

Como criar um json aninhado no Pyspark?

Estou tentando criar um json aninhado a partir dos dados abaixo. Somente os nomes dos campos comosegid eval são constantes, o resto não é constante. Eu preciso colocá-los na lista de categorias. Poderia ajudar por favor [/imgs/NRMzc.png] ...

1 a resposta

Como truncar e / ou usar curingas com o Databrick

Estou tentando escrever um script em databricks que selecionará um arquivo com base em certos caracteres no nome do arquivo ou apenas no carimbo de data / hora no arquiv Por exemplo, o seguinte arquivo é o seguinte: ...

2 a resposta

PySpark: como criar um JSON aninhado a partir do quadro de dados do spar

Estou tentando criar um json aninhado do meu spark dataframe que possui dados na seguinte estrutura. O código abaixo está criando um json simples com chave e valor. Poderia ajudar por ...

1 a resposta

Conteúdo da coluna da matriz do filtro

Estou usando o pyspark 2.3.1 e gostaria de filtrar elementos do array com uma expressão e não usando udf: >>> df = spark.createDataFrame([(1, "A", [1,2,3,4]), (2, "B", [1,2,3,4,5])],["col1", "col2", "col3"]) >>> ...

0 a resposta

Como comparar os cabeçalhos do df com outros cabeçalhos df usando o Fuzzy Matching no pyspark?

Criei 3 quadros de dados executando o seguinte código. sample.csv id|code|name|Lname|mname 2|AA|BB|CC|DD| sample1.csv id|code|name|Lname|mname 1|A|B|C|D| sample2.csv id1|code1|name1|Lnam|mnam 3|AAA|BBB|CCC|DDD| Comparei os cabeçalhos dos ...

5 a resposta

Dataframe do PySpark do dicionário Python sem pandas

Estou tentando converter o seguinte Pythondict no PySpark DataFrame, mas não estou obtendo a saída esperada. dict_lst = {'letters': ['a', 'b', 'c'], 'numbers': [10, 20, 30]} df_dict = sc.parallelize([dict_lst]).toDF() # Result not as expected ...

1 a resposta

Erro ao usar a tabela INSERT INTO ON KEY DUPLICATE, usando uma matriz de loop for

Estou trabalhando na atualização de um banco de dados mysql usando a estrutura pyspark e executando nos serviços do AWS Glue. Eu tenho um quadro de dados da seguinte maneira: df2= sqlContext.createDataFrame([("xxx1","81A01","TERR ...

1 a resposta

Contar o número de linhas duplicadas no SPARKSQL

Eu tenho requisito onde eu preciso contar o número de linhas duplicadas nas tabelas SparkSQL for Hive. from pyspark import SparkContext, SparkConf from pyspark.sql import HiveContext from pyspark.sql.types import * from pyspark.sql import Row ...

1 a resposta

Aplicar uma transformação a várias colunas pyspark dataframe

Suponha que eu tenha o seguinte spark-dataframe: +-----+-------+ | word| label| +-----+-------+ | red| color| | red| color| | blue| color| | blue|feeling| |happy|feeling| +-----+-------+Que pode ser criado usando o seguinte código: sample_df = ...