Resultados da pesquisa a pedido "pyspark"

1 a resposta

Spark Dataframe - Função de janelas - Lag & Lead para inserção e atualização de saída

Preciso executar a operação abaixo em quadros de dados usando a função Windowing Lag and Lead. Para cada chave, preciso executar a inserção e atualização abaixo na saída final Inserir condição: 1. Por padrão, LAYER_NO = 0, precisa ser gravado ...

2 a resposta

PySpark - obtém o número da linha para cada linha em um grupo

Usando o pyspark, eu gostaria de poder agrupar um quadro de dados spark, classificar o grupo e fornecer um número de linha. assim Group Date A 2000 A 2002 A 2007 B 1999 B 2015Se tornaria Group Date row_num A 2000 0 A 2002 1 A 2007 2 B 1999 0 B ...

2 a resposta

Coluna Spark Dataframe com o último caractere de outra coluna

Estou procurando uma maneira de obter o último caractere de uma seqüência de caracteres em uma coluna de quadro de dados e colocá-lo em outra coluna. Eu tenho um dataframe Spark que se parece com isso: animal ====== cat mouse snakeEu quero algo ...

1 a resposta

Inicialize o PySpark para predefinir a variável SparkContext 'sc'

Ao usar o PySpark, gostaria que um SparkContext fosse inicializado (no modo cliente do fio) após a criação de um novo notebook. Os tutoriais a seguir descrevem como fazer isso em versões anteriores do ipython / jupyter ...

1 a resposta

Como alterar os metadados da coluna no pyspark?

Como posso atualizar os metadados da coluna no PySpark? Tenho valores de metadados correspondentes à codificação nominal de recursos categóricos (string) e gostaria de decodificá-los novamente de maneira automatizada. A gravação dos metadados na ...

3 a resposta

Pyspark: substituindo valor em uma coluna pesquisando um dicionário

Eu sou um novato no PySpark. Eu tenho uma faíscaDataFrame df que possui uma coluna 'device_type'. Desejo substituir todos os valores contidos em "Tablet" ou "Telefone" por "Telefone" e substituir "PC" por "Área de trabalho". No Python, posso ...

2 a resposta

módulo definido pelo usuário de importação pyspark ou arquivos .py

Eu construí ummódulo python [https://docs.python.org/2/tutorial/modules.html]e quero importá-lo no meu aplicativo pyspark. Minha estrutura de diretório de pacotes é: wesam/ |-- data.py `-- __init__.pyUm simplesimport wesam no topo do meu ...

1 a resposta

pyspark rdd isCheckPointed () é false

Eu estava encontrando stackoverflowerrors quando adicionava iterativamente mais de 500 colunas ao meu dataframe pyspark. Então, incluí pontos de verificação. Os pontos de verificação não ajudaram. Portanto, criei o seguinte aplicativo ...

1 a resposta

Por que não existe função de mapa para o dataframe no pyspark enquanto o equivalente do spark possui?

Atualmente trabalhando no PySpark. Não há função de mapa ativadaDataFramee é preciso ir paraRDD paramap função. Em Scala, há umamap emDataFrame, Existe alguma razão para isso?

2 a resposta

Como calcular a diferença de data no pyspark?

Eu tenho dados como este: df = sqlContext.createDataFrame([ ('1986/10/15', 'z', 'null'), ('1986/10/15', 'z', 'null'), ('1986/10/15', 'c', 'null'), ('1986/10/15', 'null', 'null'), ('1986/10/16', 'null', '4.0')], ('low', 'high', 'normal'))Quero ...