Resultados da pesquisa a pedido "apache-spark"

Estou usando o Spark com Scala para fazer algum processamento de dados. Eu tenho dados XML mapeados para dataframe. Estou passando um Row como parâmetro para o UDF e tentando extrair dois objetos de tipos complexos como uma lista. Spark está me ...

scala dataframe

1 a resposta

Crie uma nova coluna com base na verificação da data

Eu tenho dois quadros de dados no Scala: df1 = ID Field1 1 AAA 2 BBB 4 CCCe df2 = PK start_date_time 1 2016-10-11 11:55:23 2 2016-10-12 12:25:00 3 2016-10-12 16:20:00Eu também tenho uma variávelstart_date com o formatoyyyy-MM-dd igual ...

apache-spark-sql

1 a resposta

Campos anuláveis do esquema do DataFrame do Spark

Eu escrevi o código a seguir no Scala e no Python, no entanto, o DataFrame retornado não parece aplicar os campos não anuláveis no meu esquema que estou aplicando.italianVotes.csv é um arquivo csv com '~' como separador e quatro campos. Estou ...

scala

0 a resposta

Unir dois quadros de dados por ID

Esta questão está relacionada aoo anterior [https://stackoverflow.com/questions/41701949/compare-dates-in-dataframes?noredirect=1#comment70599988_41701949] . Eu tenho dois quadros de dados no Scala: df1 = ID start_date_time field1 field2 1 ...

python pyspark apache-spark-sql pyspark-sql

2 a resposta

Posso ler vários arquivos em um Spark Dataframe do S3, passando por arquivos inexistentes?

Gostaria de ler vários arquivos de parquet em um dataframe do S3. Atualmente, estou usando o seguinte método para fazer isso: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...

apache-spark-sql apache-spark-mllib

0 a resposta

Escalando cada coluna de um quadro de dados

Estou tentando dimensionar todas as colunas de um quadro de dados. Primeiro converto cada coluna em um vetor e depois uso o ml MinMax Scaler. Existe uma maneira melhor / mais elegante de aplicar a mesma função a cada coluna do que simplesmente ...

dataframe scala uuid

1 a resposta

O UUID aleatório do Spark Dataframe é alterado após cada transformação / ação

Eu tenho um quadro de dados Spark com uma coluna que inclui um UUID gerado. No entanto, sempre que eu faço uma ação ou transformação no quadro de dados, ele altera o UUID em cada estágio. Como faço para gerar o UUID apenas uma vez e manter o ...

pyspark sql apache-spark-sql window-functions

1 a resposta

Como agregar janela de tempo de rolagem com grupos no Spark

Tenho alguns dados que quero agrupar por uma determinada coluna e agregar uma série de campos com base em uma janela de tempo de rolagem do grupo. Aqui estão alguns dados de exemplo: df = spark.createDataFrame([Row(date='2016-01-01', ...

python pyspark

7 a resposta

Apache Spark com Python: erro

Novo no Spark. Baixei tudo bem, mas quando executo o pyspark, recebo os seguintes erros: Type "help", "copyright", "credits" or "license" for more information. Using Spark's default log4j profile: ...

sbt scala spark-structured-streaming sbt-assembly

7 a resposta

Por que o aplicativo Spark falha com "ClassNotFoundException: falha ao localizar a fonte de dados: kafka" como uber-jar com assembly sbt?

Estou tentando executar uma amostra ...

Página 38 do 167

36 373839 40

Resultados da pesquisa a pedido "apache-spark"

Return Seq [Row] do Spark-Scala UDF

Crie uma nova coluna com base na verificação da data

Campos anuláveis do esquema do DataFrame do Spark

Tags populares

Unir dois quadros de dados por ID

Posso ler vários arquivos em um Spark Dataframe do S3, passando por arquivos inexistentes?

Escalando cada coluna de um quadro de dados

O UUID aleatório do Spark Dataframe é alterado após cada transformação / ação

Como agregar janela de tempo de rolagem com grupos no Spark

Apache Spark com Python: erro

Por que o aplicativo Spark falha com "ClassNotFoundException: falha ao localizar a fonte de dados: kafka" como uber-jar com assembly sbt?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "apache-spark"

Tags populares