Resultados da pesquisa a pedido "apache-spark-sql"
Posso ler vários arquivos em um Spark Dataframe do S3, passando por arquivos inexistentes?
Gostaria de ler vários arquivos de parquet em um dataframe do S3. Atualmente, estou usando o seguinte método para fazer isso: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...
Como agregar janela de tempo de rolagem com grupos no Spark
Tenho alguns dados que quero agrupar por uma determinada coluna e agregar uma série de campos com base em uma janela de tempo de rolagem do grupo. Aqui estão alguns dados de exemplo: df = spark.createDataFrame([Row(date='2016-01-01', ...
Preenchendo lacunas nas séries temporais Spark
Tenho um problema ao lidar com dados de séries temporais. Devido a falhas de energia, alguns carimbos de data e hora estão ausentes no conjunto de dados. Preciso preencher essas lacunas adicionando linhas e, depois disso, posso interpolar os ...
Por que o uso do cache nos conjuntos de dados de streaming falha com "AnalysisException: as consultas com fontes de streaming devem ser executadas com writeStream.start ()"?
SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...
Diferença entre === null e isNull no Spark DataDrame
Estou um pouco confuso com a diferença quando estamos usando df.filter(col("c1") === null) and df.filter(col("c1").isNull)Mesmo dataframe que estou recebendo contagens === null mas zero conta em isNull. Por favor, ajude-me a entender a ...
Como encontrar a média das colunas de vetor agrupadas no Spark SQL?
Eu criei umRelationalGroupedDataset chamandoinstances.groupBy(instances.col("property_name")): val x = instances.groupBy(instances.col("property_name"))Como componho umfunção agregada definida pelo ...
Spark SQL datado em segundos
Eu tenho o seguinte código: table.select(datediff(table.col("Start Time"), table.col("End Time"))).show()O formato da data é2016-05-19 09:23:28 (YYYY-MM-DD HH:mm:SS) Funçãodatediffcalcule a diferença em dias. Mas eu gostaria de ter a diferença ...
como converter todas as colunas do dataframe em string
Eu tenho um quadro de dados do tipo misto. Estou lendo esse quadro de dados da tabela de colméias usandospark.sql('select a,b,c from table') comando. Algumas colunas são int, bigint, double e outras são string. Existem 32 colunas no total. ...
Como classificamos o dataframe?
Eu tenho o dataframe de amostra como abaixo: i / p accountNumber assetValue A100 1000 A100 500 B100 600 B100 200o / p AccountNumber assetValue Rank A100 1000 1 A100 500 2 B100 600 1 B100 200 2Agora, minha pergunta é como adicionamos essa ...
Anexar zeros a um valor no PySpark
Eu tenho um quadro de dadosdf : val1 val2 val3 271 70 151 213 1 379 213 3 90 213 6 288 20 55 165Eu quero transformar esse quadro de dados como: val1 val2 val3 271 70 0151 213 01 0379 213 03 0090 213 06 0288 020 55 0165Como posso fazer isso no ...