Resultados da pesquisa a pedido "pyspark"

3 a resposta

Como substituo um valor de string por um NULL no PySpark?

Eu quero fazer algo assim: df.replace('empty-value', None, 'NAME')Basicamente, quero substituir algum valor por NULL. mas não aceita nenhum nesta função. Como posso fazer isso?

1 a resposta

Obtenha o valor máximo para cada chave em um Spark RDD

Qual é a melhor maneira de retornar a linha máxima (valor) associada a cada chave exclusiva em um RDD spark? Estou usando python e tentei o Math max, mapeando e reduzindo por chaves e agregados. Existe uma maneira eficiente de fazer isso? ...

2 a resposta

Como converter DataFrame com colunas Vector no RDD

Eu tenho um DataFrame (chamadodf1 no Pyspark, no qual uma das colunas é do tipoDenseVector. Este é o esquema do quadro de dados. DataFrame[prediction: double, probability: vector, label: double]Eu tento convertê-lo em um RDD usandodf1.rdd ...

2 a resposta

Qual é a classe de caso Scala equivalente no PySpark?

Como você empregaria e / ou implementaria uma classe de caso equivalente no PySpark?

8 a resposta

Salvar o conteúdo do Spark DataFrame como um único arquivo CSV [duplicado]

Esta pergunta já tem uma resposta aqui: Escreva um arquivo CSV único usando spark-csv [/questions/31674530/write-single-csv-file-using-spark-csv] 8 respostas Dizem que tenho um Spark DataFrame que desejo salvar como arquivo CSV. Depois ...

1 a resposta

`combineByKey`, pyspark [duplicado]

Esta pergunta já tem uma resposta aqui: Quem pode dar uma explicação clara para `combineByKey` no Spark? [/questions/33937625/who-can-give-a-clear-explanation-for-combinebykey-in-spark] 1 resposta Apache Spark: Qual é a implementação ...

1 a resposta

Como nivelar um quadro de dados pySpark por uma coluna de matriz? [duplicado

Esta pergunta já tem uma resposta aqui: ividir linhas complexas do quadro de dados em linhas simples no Pyspa [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 respostasEu tenho um spark dataframe ...

3 a resposta

Explode dados da matriz em linhas no spark [duplicado]

Esta pergunta já tem uma resposta aqui: ividir linhas complexas do quadro de dados em linhas simples no Pyspa [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 respostasTenho um conjunto de dados da seguinte ...

1 a resposta

Entenda o fechamento em faísca

Nos modos de cluster, como escrever uma função de fechamentof para permitir que todo trabalhador acesse a cópia da variávelN. N=5 lines=sc.parallelize(['early radical', 'french revolution','pejorative way', 'violent means']) def f1(line): ...

1 a resposta

riando uma matriz de indicadores com base nos valores de coluna de outros quadros de dados no PySpa

Tenho dois quadros de dados:df1 +---+-----------------+ |id1| items1| +---+-----------------+ | 0| [B, C, D, E]| | 1| [E, A, C]| | 2| [F, A, E, B]| | 3| [E, G, A]| | 4| [A, C, E, B, D]| +---+-----------------+anddf2: +---+-----------------+ ...