Resultados da pesquisa a pedido "pyspark"
PySpark substitui null na coluna pelo valor em outra coluna
Quero substituir valores nulos em uma coluna pelos valores em uma coluna adjacente, por exemplo, se eu tiver A|B 0,1 2,null 3,null 4,2Eu quero que seja: A|B 0,1 2,2 3,3 4,2Tentei com df.na.fill(df.A,"B")Mas não funcionou, diz que o valor deve ...
Serialize um transformador personalizado usando python para ser usado em um pipeline Pyspark ML
Encontrei a mesma discussão na seção de comentários deCrie um transformador personalizado no PySpark ML [https://stackoverflow.com/questions/32331848/create-a-custom-transformer-in-pyspark-ml] , mas não há uma resposta clara. Há também um JIRA ...
Desmembrar no spark-sql / pyspark
Eu tenho uma declaração do problema em mãos na qual desejo desagrupar a tabela no spark-sql / pyspark. Examinei a documentação e pude ver que há suporte apenas para o pivô, mas até agora não há suporte para o não pivô. Existe uma maneira ...
Spark Container & Executor OOMs durante `replaceByKey`
Estou executando um trabalho Spark no EMR da Amazon no modo cliente com YARN, usando o pyspark, para processar dados de dois arquivos de entrada (totalizando 200 GB) de tamanho. O trabalho une os dados (usandoreduceByKey), faz alguns mapas e ...
Como fazer previsões com o Sklearn Model dentro do Spark?
Eu treinei um modelo em python usando o sklearn. Como podemos usar o mesmo modelo para carregar no Spark e gerar previsões em um RDD do spark?
Considerações de segurança do Spark SQL
Quais são as considerações de segurança ao aceitar e executar consultas SQL spark arbitrárias? Imagine a seguinte configuração: Dois arquivos em hdfs são registrados como tabelasa_secrets eb_secrets: # must only be accessed by clients with ...
O quadro de dados Python / pyspark reorganiza as colunas
Eu tenho um quadro de dados em python / pyspark com colunasid time city zip e assim por diante...... Agora eu adicionei uma nova colunaname para esse quadro de dados. Agora eu tenho que organizar as colunas de tal maneira que oname coluna ...
Existe uma maneira de transmitir resultados ao driver sem esperar que todas as partições concluam a execução?
Existe uma maneira de transmitir resultados para o driver sem esperar que todas as partições concluam a execução? Eu sou novo no Spark, por favor, aponte-me na direção certa se houver uma abordagem melhor. Eu gostaria de executar um grande ...
Especificando o nome do arquivo ao salvar um DataFrame como um CSV [duplicado]
Esta pergunta já tem uma resposta aqui: Salvar dataframe do Spark em arquivo único no local hdfs [duplicado] [/questions/40792434/spark-dataframe-save-in-single-file-on-hdfs-location] 1 respostaDigamos que eu tenho um Spark DF que desejo salvar ...
Como mapear recursos da saída de um VectorAssembler para os nomes das colunas no Spark ML?
Estou tentando executar uma regressão linear no PySpark e quero criar uma tabela contendo estatísticas resumidas, como coeficientes, valores-P e valores-t para cada coluna no meu conjunto de dados. No entanto, para treinar um modelo de regressão ...