Resultados da pesquisa a pedido "pyspark"

3 a resposta

PySpark substitui null na coluna pelo valor em outra coluna

Quero substituir valores nulos em uma coluna pelos valores em uma coluna adjacente, por exemplo, se eu tiver A|B 0,1 2,null 3,null 4,2Eu quero que seja: A|B 0,1 2,2 3,3 4,2Tentei com df.na.fill(df.A,"B")Mas não funcionou, diz que o valor deve ...

5 a resposta

Serialize um transformador personalizado usando python para ser usado em um pipeline Pyspark ML

Encontrei a mesma discussão na seção de comentários deCrie um transformador personalizado no PySpark ML [https://stackoverflow.com/questions/32331848/create-a-custom-transformer-in-pyspark-ml] , mas não há uma resposta clara. Há também um JIRA ...

1 a resposta

Desmembrar no spark-sql / pyspark

Eu tenho uma declaração do problema em mãos na qual desejo desagrupar a tabela no spark-sql / pyspark. Examinei a documentação e pude ver que há suporte apenas para o pivô, mas até agora não há suporte para o não pivô. Existe uma maneira ...

1 a resposta

Spark Container & Executor OOMs durante `replaceByKey`

Estou executando um trabalho Spark no EMR da Amazon no modo cliente com YARN, usando o pyspark, para processar dados de dois arquivos de entrada (totalizando 200 GB) de tamanho. O trabalho une os dados (usandoreduceByKey), faz alguns mapas e ...

1 a resposta

Como fazer previsões com o Sklearn Model dentro do Spark?

Eu treinei um modelo em python usando o sklearn. Como podemos usar o mesmo modelo para carregar no Spark e gerar previsões em um RDD do spark?

1 a resposta

Considerações de segurança do Spark SQL

Quais são as considerações de segurança ao aceitar e executar consultas SQL spark arbitrárias? Imagine a seguinte configuração: Dois arquivos em hdfs são registrados como tabelasa_secrets eb_secrets: # must only be accessed by clients with ...

1 a resposta

O quadro de dados Python / pyspark reorganiza as colunas

Eu tenho um quadro de dados em python / pyspark com colunasid time city zip e assim por diante...... Agora eu adicionei uma nova colunaname para esse quadro de dados. Agora eu tenho que organizar as colunas de tal maneira que oname coluna ...

1 a resposta

Existe uma maneira de transmitir resultados ao driver sem esperar que todas as partições concluam a execução?

Existe uma maneira de transmitir resultados para o driver sem esperar que todas as partições concluam a execução? Eu sou novo no Spark, por favor, aponte-me na direção certa se houver uma abordagem melhor. Eu gostaria de executar um grande ...

1 a resposta

Especificando o nome do arquivo ao salvar um DataFrame como um CSV [duplicado]

Esta pergunta já tem uma resposta aqui: Salvar dataframe do Spark em arquivo único no local hdfs [duplicado] [/questions/40792434/spark-dataframe-save-in-single-file-on-hdfs-location] 1 respostaDigamos que eu tenho um Spark DF que desejo salvar ...

3 a resposta

Como mapear recursos da saída de um VectorAssembler para os nomes das colunas no Spark ML?

Estou tentando executar uma regressão linear no PySpark e quero criar uma tabela contendo estatísticas resumidas, como coeficientes, valores-P e valores-t para cada coluna no meu conjunto de dados. No entanto, para treinar um modelo de regressão ...