Resultados da pesquisa a pedido "pyspark"

3 a resposta

Achatar Dataframe Spark aninhado

Existe uma maneira de nivelar um Spark Dataframe arbitrariamente aninhado? A maior parte do trabalho que estou vendo é escrita para um esquema específico e eu gostaria de poder achatar genericamente um Dataframe com diferentes tipos aninhados ...

2 a resposta

Spark adiciona nova coluna ao quadro de dados com valor da linha anterior

Gostaria de saber como posso obter o seguinte no Spark (Pyspark) Dataframe inicial: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Dataframe resultante: +--+---+-------+ |id|num|new_Col| ...

2 a resposta

Retornar RDD dos maiores valores de N de outro RDD no SPARK

Estou tentando filtrar um RDD de tuplas para retornar as maiores N tuplas com base nos valores-chave. Eu preciso do formato de retorno para ser um RDD. Então o RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]filtrado para as ...

1 a resposta

O pyspark divide uma coluna em várias colunas sem pandas

minha pergunta é como dividir uma coluna em várias colunas. Não sei porquedf.toPandas() não funciona. Por exemplo, eu gostaria de mudar 'df_test' para 'df_test2'. Eu vi muitos exemplos usando o módulo pandas. Existe outro caminho? Agradeço ...

1 a resposta

StandardScaler no Spark não está funcionando conforme o esperado

Alguma idéia de por que o Spark faria isso porStandardScaler? Conforme definição deStandardScaler: O StandardScaler padroniza um conjunto de recursos para ter média zero e um desvio padrão de 1. O sinalizador withStd escalará os dados para o ...

1 a resposta

O arquivo .py de importação do Pyspark não está funcionando

Meu objetivo é importar um arquivo .py personalizado para o meu aplicativo spark e chamar algumas das funções incluídas dentro desse arquivo Aqui está o que eu tentei: Eu tenho um arquivo de teste chamadoTest.pyque tem a seguinte ...

4 a resposta

Como criar um DataFrame fora das linhas, mantendo o esquema existente?

Se eu ligar para o mapa oumapPartition e minha função recebe linhas do PySpark, qual é a maneira natural de criar um PySpark local ou o Pandas DataFrame? Algo que combina as linhas e mantém o esquema? Atualmente eu faço algo como: def ...

1 a resposta

Erro Spark __getnewargs__

Estou tentando limpar um Spark DataFrame, mapeando-o para RDD e depois para o DataFrame. Aqui está um exemplo de brinquedo: def replace_values(row,sub_rules): d = row.asDict() for col,old_val,new_val in sub_rules: if d[col] == old_val: d[col] = ...

2 a resposta

Transformação no estilo pandas de dados agrupados no PySpark DataFrame

Se tivermos um quadro de dados do Pandas que consiste em uma coluna de categorias e uma coluna de valores, podemos remover a média em cada categoria, fazendo o seguinte: df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda g: ...

2 a resposta

Criando histogramas em bin no Spark

Suponha que eu possua um dataframe (df) (Pandas) ou RDD (Spark) com as duas colunas a seguir: timestamp, data 12345.0 10 12346.0 12No Pandas, posso criar um histograma com bin de diferentes comprimentos de bin com bastante facilidade. Por ...