Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Return Seq [Row] do Spark-Scala UDF

Estou usando o Spark com Scala para fazer algum processamento de dados. Eu tenho dados XML mapeados para dataframe. Estou passando um Row como parâmetro para o UDF e tentando extrair dois objetos de tipos complexos como uma lista. Spark está me ...

1 a resposta

Crie uma nova coluna com base na verificação da data

Eu tenho dois quadros de dados no Scala: df1 = ID Field1 1 AAA 2 BBB 4 CCCe df2 = PK start_date_time 1 2016-10-11 11:55:23 2 2016-10-12 12:25:00 3 2016-10-12 16:20:00Eu também tenho uma variávelstart_date com o formatoyyyy-MM-dd igual ...

1 a resposta

Campos anuláveis do esquema do DataFrame do Spark

Eu escrevi o código a seguir no Scala e no Python, no entanto, o DataFrame retornado não parece aplicar os campos não anuláveis no meu esquema que estou aplicando.italianVotes.csv é um arquivo csv com '~' como separador e quatro campos. Estou ...

0 a resposta

Unir dois quadros de dados por ID

Esta questão está relacionada aoo anterior [https://stackoverflow.com/questions/41701949/compare-dates-in-dataframes?noredirect=1#comment70599988_41701949] . Eu tenho dois quadros de dados no Scala: df1 = ID start_date_time field1 field2 1 ...

2 a resposta

Posso ler vários arquivos em um Spark Dataframe do S3, passando por arquivos inexistentes?

Gostaria de ler vários arquivos de parquet em um dataframe do S3. Atualmente, estou usando o seguinte método para fazer isso: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...

0 a resposta

Escalando cada coluna de um quadro de dados

Estou tentando dimensionar todas as colunas de um quadro de dados. Primeiro converto cada coluna em um vetor e depois uso o ml MinMax Scaler. Existe uma maneira melhor / mais elegante de aplicar a mesma função a cada coluna do que simplesmente ...

1 a resposta

O UUID aleatório do Spark Dataframe é alterado após cada transformação / ação

Eu tenho um quadro de dados Spark com uma coluna que inclui um UUID gerado. No entanto, sempre que eu faço uma ação ou transformação no quadro de dados, ele altera o UUID em cada estágio. Como faço para gerar o UUID apenas uma vez e manter o ...

1 a resposta

Como agregar janela de tempo de rolagem com grupos no Spark

Tenho alguns dados que quero agrupar por uma determinada coluna e agregar uma série de campos com base em uma janela de tempo de rolagem do grupo. Aqui estão alguns dados de exemplo: df = spark.createDataFrame([Row(date='2016-01-01', ...

7 a resposta

Apache Spark com Python: erro

Novo no Spark. Baixei tudo bem, mas quando executo o pyspark, recebo os seguintes erros: Type "help", "copyright", "credits" or "license" for more information. Using Spark's default log4j profile: ...

7 a resposta

Por que o aplicativo Spark falha com "ClassNotFoundException: falha ao localizar a fonte de dados: kafka" como uber-jar com assembly sbt?

Estou tentando executar uma amostra ...