Resultados da pesquisa a pedido "apache-spark-sql"

Gostaria de ler vários arquivos de parquet em um dataframe do S3. Atualmente, estou usando o seguinte método para fazer isso: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...

pyspark apache-spark sql window-functions

1 a resposta

Como agregar janela de tempo de rolagem com grupos no Spark

Tenho alguns dados que quero agrupar por uma determinada coluna e agregar uma série de campos com base em uma janela de tempo de rolagem do grupo. Aqui estão alguns dados de exemplo: df = spark.createDataFrame([Row(date='2016-01-01', ...

apache-spark scala time-series

1 a resposta

Preenchendo lacunas nas séries temporais Spark

Tenho um problema ao lidar com dados de séries temporais. Devido a falhas de energia, alguns carimbos de data e hora estão ausentes no conjunto de dados. Preciso preencher essas lacunas adicionando linhas e, depois disso, posso interpolar os ...

apache-spark scala apache-spark-2.0 spark-structured-streaming

1 a resposta

Por que o uso do cache nos conjuntos de dados de streaming falha com "AnalysisException: as consultas com fontes de streaming devem ser executadas com writeStream.start ()"?

SparkSession .builder .master("local[*]") .config("spark.sql.warehouse.dir", "C:/tmp/spark") .config("spark.sql.streaming.checkpointLocation", "C:/tmp/spark/spark-checkpoint") .appName("my-test") .getOrCreate .readStream .schema(schema) ...

sql dataframe apache-spark scala

2 a resposta

Diferença entre === null e isNull no Spark DataDrame

Estou um pouco confuso com a diferença quando estamos usando df.filter(col("c1") === null) and df.filter(col("c1").isNull)Mesmo dataframe que estou recebendo contagens === null mas zero conta em isNull. Por favor, ajude-me a entender a ...

apache-spark-ml aggregate-functions apache-spark user-defined-functions

1 a resposta

Como encontrar a média das colunas de vetor agrupadas no Spark SQL?

Eu criei umRelationalGroupedDataset chamandoinstances.groupBy(instances.col("property_name")): val x = instances.groupBy(instances.col("property_name"))Como componho umfunção agregada definida pelo ...

apache-spark scala

1 a resposta

Spark SQL datado em segundos

Eu tenho o seguinte código: table.select(datediff(table.col("Start Time"), table.col("End Time"))).show()O formato da data é2016-05-19 09:23:28 (YYYY-MM-DD HH:mm:SS) Funçãodatediffcalcule a diferença em dias. Mas eu gostaria de ter a diferença ...

pyspark apache-spark

3 a resposta

como converter todas as colunas do dataframe em string

Eu tenho um quadro de dados do tipo misto. Estou lendo esse quadro de dados da tabela de colméias usandospark.sql('select a,b,c from table') comando. Algumas colunas são int, bigint, double e outras são string. Existem 32 colunas no total. ...

scala apache-spark

2 a resposta

Como classificamos o dataframe?

Eu tenho o dataframe de amostra como abaixo: i / p accountNumber assetValue A100 1000 A100 500 B100 600 B100 200o / p AccountNumber assetValue Rank A100 1000 1 A100 500 2 B100 600 1 B100 200 2Agora, minha pergunta é como adicionamos essa ...

apache-spark sql pyspark

1 a resposta

Anexar zeros a um valor no PySpark

Eu tenho um quadro de dadosdf : val1 val2 val3 271 70 151 213 1 379 213 3 90 213 6 288 20 55 165Eu quero transformar esse quadro de dados como: val1 val2 val3 271 70 0151 213 01 0379 213 03 0090 213 06 0288 020 55 0165Como posso fazer isso no ...

Página 15 do 52

13 141516 17

Resultados da pesquisa a pedido "apache-spark-sql"

Posso ler vários arquivos em um Spark Dataframe do S3, passando por arquivos inexistentes?

Como agregar janela de tempo de rolagem com grupos no Spark

Preenchendo lacunas nas séries temporais Spark

Tags populares

Por que o uso do cache nos conjuntos de dados de streaming falha com "AnalysisException: as consultas com fontes de streaming devem ser executadas com writeStream.start ()"?

Diferença entre === null e isNull no Spark DataDrame

Como encontrar a média das colunas de vetor agrupadas no Spark SQL?

Spark SQL datado em segundos

como converter todas as colunas do dataframe em string

Como classificamos o dataframe?

Anexar zeros a um valor no PySpark

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark-sql"

Tags populares