Resultados da pesquisa a pedido "apache-spark-sql"

2 a resposta

Posso ler vários arquivos em um Spark Dataframe do S3, passando por arquivos inexistentes?

Gostaria de ler vários arquivos de parquet em um dataframe do S3. Atualmente, estou usando o seguinte método para fazer isso: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...

1 a resposta

Como agregar janela de tempo de rolagem com grupos no Spark

Tenho alguns dados que quero agrupar por uma determinada coluna e agregar uma série de campos com base em uma janela de tempo de rolagem do grupo. Aqui estão alguns dados de exemplo: df = spark.createDataFrame([Row(date='2016-01-01', ...

1 a resposta

Preenchendo lacunas nas séries temporais Spark

Tenho um problema ao lidar com dados de séries temporais. Devido a falhas de energia, alguns carimbos de data e hora estão ausentes no conjunto de dados. Preciso preencher essas lacunas adicionando linhas e, depois disso, posso interpolar os ...

1 a resposta

Por que o uso do cache nos conjuntos de dados de streaming falha com "AnalysisException: as consultas com fontes de streaming devem ser executadas com writeStream.start ()"?

SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...

2 a resposta

Diferença entre === null e isNull no Spark DataDrame

Estou um pouco confuso com a diferença quando estamos usando df.filter(col("c1") === null) and df.filter(col("c1").isNull)Mesmo dataframe que estou recebendo contagens === null mas zero conta em isNull. Por favor, ajude-me a entender a ...

1 a resposta

Como encontrar a média das colunas de vetor agrupadas no Spark SQL?

Eu criei umRelationalGroupedDataset chamandoinstances.groupBy(instances.col("property_name")): val x = instances.groupBy(instances.col("property_name"))Como componho umfunção agregada definida pelo ...

1 a resposta

Spark SQL datado em segundos

Eu tenho o seguinte código: table.select(datediff(table.col("Start Time"), table.col("End Time"))).show()O formato da data é2016-05-19 09:23:28 (YYYY-MM-DD HH:mm:SS) Funçãodatediffcalcule a diferença em dias. Mas eu gostaria de ter a diferença ...

3 a resposta

como converter todas as colunas do dataframe em string

Eu tenho um quadro de dados do tipo misto. Estou lendo esse quadro de dados da tabela de colméias usandospark.sql('select a,b,c from table') comando. Algumas colunas são int, bigint, double e outras são string. Existem 32 colunas no total. ...

2 a resposta

Como classificamos o dataframe?

Eu tenho o dataframe de amostra como abaixo: i / p accountNumber assetValue A100 1000 A100 500 B100 600 B100 200o / p AccountNumber assetValue Rank A100 1000 1 A100 500 2 B100 600 1 B100 200 2Agora, minha pergunta é como adicionamos essa ...

1 a resposta

Anexar zeros a um valor no PySpark

Eu tenho um quadro de dadosdf : val1 val2 val3 271 70 151 213 1 379 213 3 90 213 6 288 20 55 165Eu quero transformar esse quadro de dados como: val1 val2 val3 271 70 0151 213 01 0379 213 03 0090 213 06 0288 020 55 0165Como posso fazer isso no ...