Resultados da pesquisa a pedido "apache-spark"
Grupo de Dataframe do Apache Spark por agg () para várias colunas
eu tenho umDataFrame com 3 colunas, ou seja,Id, First Name, Last Name Eu quero aplicarGroupBy com base emId e quer colecionarFirst Name, Last Name coluna como lista. Exemplo: - Eu tenho um DF como este +---+-------+--------+ |id |fName |lName ...
Qual é o conceito de candidatura, cargo, estágio e tarefa?
Meu entendimento está correto? Aplicação: envio de uma faísca. trabalho: uma vez que uma avaliação preguiçosa acontece, há um emprego. estágio: está relacionado ao shuffle e ao tipo de transformação. É difícil para mim entender os limites do ...
Por que o número de partições após o groupBy 200? Por que este número 200 não é outro número?
É o INSTANTÂNEO do faísca 2.2.0. Por que o número de partições apósgroupBy transformação 200 no exemplo a seguir? scala> spark.range(5).groupByKey(_ % 5).count.rdd.getNumPartitions res0: Int = 200O que há de tão especial200? Por que não outro ...
SparkContext setLocalProperties
Como continuação deessa questão [https://stackoverflow.com/questions/42698500/spark-launch-from-single-jvm-jobs-with-different-memory-cores-configs-simultane] , você poderia me dizer quais propriedades posso ...
Por que meu pyspark fica travado como ACEITO no fio quando eu o inicio?
Acabei de criar um novoAWS instância emLinux. E eu instaleipyspark nele. Temspark 1.6. Estou correndopyspark comyarn. Quando eu faço o comandopyspark no terminal, ele é inicializado inicialmente, mas então recebo a mensagem: dd/mm/YY HH:MM:SS ...
Anexar zeros a um valor no PySpark
Eu tenho um quadro de dadosdf : val1 val2 val3 271 70 151 213 1 379 213 3 90 213 6 288 20 55 165Eu quero transformar esse quadro de dados como: val1 val2 val3 271 70 0151 213 01 0379 213 03 0090 213 06 0288 020 55 0165Como posso fazer isso no ...
Como encontrar os primeiros valores não nulos em grupos? (classificação secundária usando a API do conjunto de dados)
Estou trabalhando em um conjunto de dados que representa um fluxo de eventos (como disparados como eventos de rastreamento de um site). Todos os eventos têm um carimbo de data / hora. Um caso de uso que geralmente temos é tentar encontrar o 1º ...
passe o código de saída customizado do spark do modo de cluster de fios para a CLI
Iniciei um trabalho de faísca no modo de cluster de fios através do envio de faísca. Para indicar falha parcial, etc, eu quero passar o código de saída do driver para o script chamando de envio de spark. Eu tentei ambos, System.exit e lançando ...
como lidar com milhões de arquivos s3 menores com o apache spark
então esse problema está me deixando louco, e está começando a parecer que a faísca com s3 não é a ferramenta certa para esse trabalho específico. Basicamente, tenho milhões de arquivos menores em um balde s3. Por motivos em que não posso ...
Função da janela Spark SQL com condição complexa
Provavelmente é mais fácil explicar através do exemplo. Suponha que eu tenha um DataFrame de logins de usuário em um site, por exemplo: scala> df.show(5) +----------------+----------+ | user_name|login_date| +----------------+----------+ ...