Resultados da pesquisa a pedido "apache-spark"

1 a resposta

Grupo de Dataframe do Apache Spark por agg () para várias colunas

eu tenho umDataFrame com 3 colunas, ou seja,Id, First Name, Last Name Eu quero aplicarGroupBy com base emId e quer colecionarFirst Name, Last Name coluna como lista. Exemplo: - Eu tenho um DF como este +---+-------+--------+ |id |fName |lName ...

3 a resposta

Qual é o conceito de candidatura, cargo, estágio e tarefa?

Meu entendimento está correto? Aplicação: envio de uma faísca. trabalho: uma vez que uma avaliação preguiçosa acontece, há um emprego. estágio: está relacionado ao shuffle e ao tipo de transformação. É difícil para mim entender os limites do ...

1 a resposta

Por que o número de partições após o groupBy 200? Por que este número 200 não é outro número?

É o INSTANTÂNEO do faísca 2.2.0. Por que o número de partições apósgroupBy transformação 200 no exemplo a seguir? scala> spark.range(5).groupByKey(_ % 5).count.rdd.getNumPartitions res0: Int = 200O que há de tão especial200? Por que não outro ...

3 a resposta

SparkContext setLocalProperties

Como continuação deessa questão [https://stackoverflow.com/questions/42698500/spark-launch-from-single-jvm-jobs-with-different-memory-cores-configs-simultane] , você poderia me dizer quais propriedades posso ...

3 a resposta

Por que meu pyspark fica travado como ACEITO no fio quando eu o inicio?

Acabei de criar um novoAWS instância emLinux. E eu instaleipyspark nele. Temspark 1.6. Estou correndopyspark comyarn. Quando eu faço o comandopyspark no terminal, ele é inicializado inicialmente, mas então recebo a mensagem: dd/mm/YY HH:MM:SS ...

1 a resposta

Anexar zeros a um valor no PySpark

Eu tenho um quadro de dadosdf : val1 val2 val3 271 70 151 213 1 379 213 3 90 213 6 288 20 55 165Eu quero transformar esse quadro de dados como: val1 val2 val3 271 70 0151 213 01 0379 213 03 0090 213 06 0288 020 55 0165Como posso fazer isso no ...

1 a resposta

Como encontrar os primeiros valores não nulos em grupos? (classificação secundária usando a API do conjunto de dados)

Estou trabalhando em um conjunto de dados que representa um fluxo de eventos (como disparados como eventos de rastreamento de um site). Todos os eventos têm um carimbo de data / hora. Um caso de uso que geralmente temos é tentar encontrar o 1º ...

2 a resposta

passe o código de saída customizado do spark do modo de cluster de fios para a CLI

Iniciei um trabalho de faísca no modo de cluster de fios através do envio de faísca. Para indicar falha parcial, etc, eu quero passar o código de saída do driver para o script chamando de envio de spark. Eu tentei ambos, System.exit e lançando ...

1 a resposta

como lidar com milhões de arquivos s3 menores com o apache spark

então esse problema está me deixando louco, e está começando a parecer que a faísca com s3 não é a ferramenta certa para esse trabalho específico. Basicamente, tenho milhões de arquivos menores em um balde s3. Por motivos em que não posso ...

2 a resposta

Função da janela Spark SQL com condição complexa

Provavelmente é mais fácil explicar através do exemplo. Suponha que eu tenha um DataFrame de logins de usuário em um site, por exemplo: scala> df.show(5) +----------------+----------+ | user_name|login_date| +----------------+----------+ ...