Resultados da pesquisa a pedido "pyspark"
Como substituo um valor de string por um NULL no PySpark?
Eu quero fazer algo assim: df.replace('empty-value', None, 'NAME')Basicamente, quero substituir algum valor por NULL. mas não aceita nenhum nesta função. Como posso fazer isso?
Obtenha o valor máximo para cada chave em um Spark RDD
Qual é a melhor maneira de retornar a linha máxima (valor) associada a cada chave exclusiva em um RDD spark? Estou usando python e tentei o Math max, mapeando e reduzindo por chaves e agregados. Existe uma maneira eficiente de fazer isso? ...
Como converter DataFrame com colunas Vector no RDD
Eu tenho um DataFrame (chamadodf1 no Pyspark, no qual uma das colunas é do tipoDenseVector. Este é o esquema do quadro de dados. DataFrame[prediction: double, probability: vector, label: double]Eu tento convertê-lo em um RDD usandodf1.rdd ...
Qual é a classe de caso Scala equivalente no PySpark?
Como você empregaria e / ou implementaria uma classe de caso equivalente no PySpark?
Salvar o conteúdo do Spark DataFrame como um único arquivo CSV [duplicado]
Esta pergunta já tem uma resposta aqui: Escreva um arquivo CSV único usando spark-csv [/questions/31674530/write-single-csv-file-using-spark-csv] 8 respostas Dizem que tenho um Spark DataFrame que desejo salvar como arquivo CSV. Depois ...
`combineByKey`, pyspark [duplicado]
Esta pergunta já tem uma resposta aqui: Quem pode dar uma explicação clara para `combineByKey` no Spark? [/questions/33937625/who-can-give-a-clear-explanation-for-combinebykey-in-spark] 1 resposta Apache Spark: Qual é a implementação ...
Como nivelar um quadro de dados pySpark por uma coluna de matriz? [duplicado
Esta pergunta já tem uma resposta aqui: ividir linhas complexas do quadro de dados em linhas simples no Pyspa [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 respostasEu tenho um spark dataframe ...
Explode dados da matriz em linhas no spark [duplicado]
Esta pergunta já tem uma resposta aqui: ividir linhas complexas do quadro de dados em linhas simples no Pyspa [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 respostasTenho um conjunto de dados da seguinte ...
Entenda o fechamento em faísca
Nos modos de cluster, como escrever uma função de fechamentof para permitir que todo trabalhador acesse a cópia da variávelN. N=5 lines=sc.parallelize(['early radical', 'french revolution','pejorative way', 'violent means']) def f1(line): ...
riando uma matriz de indicadores com base nos valores de coluna de outros quadros de dados no PySpa
Tenho dois quadros de dados:df1 +---+-----------------+ |id1| items1| +---+-----------------+ | 0| [B, C, D, E]| | 1| [E, A, C]| | 2| [F, A, E, B]| | 3| [E, G, A]| | 4| [A, C, E, B, D]| +---+-----------------+anddf2: +---+-----------------+ ...