Resultados da pesquisa a pedido "apache-spark"
Return Seq [Row] do Spark-Scala UDF
Estou usando o Spark com Scala para fazer algum processamento de dados. Eu tenho dados XML mapeados para dataframe. Estou passando um Row como parâmetro para o UDF e tentando extrair dois objetos de tipos complexos como uma lista. Spark está me ...
Crie uma nova coluna com base na verificação da data
Eu tenho dois quadros de dados no Scala: df1 = ID Field1 1 AAA 2 BBB 4 CCCe df2 = PK start_date_time 1 2016-10-11 11:55:23 2 2016-10-12 12:25:00 3 2016-10-12 16:20:00Eu também tenho uma variávelstart_date com o formatoyyyy-MM-dd igual ...
Campos anuláveis do esquema do DataFrame do Spark
Eu escrevi o código a seguir no Scala e no Python, no entanto, o DataFrame retornado não parece aplicar os campos não anuláveis no meu esquema que estou aplicando.italianVotes.csv é um arquivo csv com '~' como separador e quatro campos. Estou ...
Unir dois quadros de dados por ID
Esta questão está relacionada aoo anterior [https://stackoverflow.com/questions/41701949/compare-dates-in-dataframes?noredirect=1#comment70599988_41701949] . Eu tenho dois quadros de dados no Scala: df1 = ID start_date_time field1 field2 1 ...
Posso ler vários arquivos em um Spark Dataframe do S3, passando por arquivos inexistentes?
Gostaria de ler vários arquivos de parquet em um dataframe do S3. Atualmente, estou usando o seguinte método para fazer isso: files = ['s3a://dev/2017/01/03/data.parquet', 's3a://dev/2017/01/02/data.parquet'] df = ...
Escalando cada coluna de um quadro de dados
Estou tentando dimensionar todas as colunas de um quadro de dados. Primeiro converto cada coluna em um vetor e depois uso o ml MinMax Scaler. Existe uma maneira melhor / mais elegante de aplicar a mesma função a cada coluna do que simplesmente ...
O UUID aleatório do Spark Dataframe é alterado após cada transformação / ação
Eu tenho um quadro de dados Spark com uma coluna que inclui um UUID gerado. No entanto, sempre que eu faço uma ação ou transformação no quadro de dados, ele altera o UUID em cada estágio. Como faço para gerar o UUID apenas uma vez e manter o ...
Como agregar janela de tempo de rolagem com grupos no Spark
Tenho alguns dados que quero agrupar por uma determinada coluna e agregar uma série de campos com base em uma janela de tempo de rolagem do grupo. Aqui estão alguns dados de exemplo: df = spark.createDataFrame([Row(date='2016-01-01', ...
Apache Spark com Python: erro
Novo no Spark. Baixei tudo bem, mas quando executo o pyspark, recebo os seguintes erros: Type "help", "copyright", "credits" or "license" for more information. Using Spark's default log4j profile: ...