Resultados da pesquisa a pedido "pyspark"

1 a resposta

Como listar RDDs definidos no shell Spark?

Nos shells "spark-shell" ou "pyspark", criei muitos RDDs, mas não consegui encontrar uma maneira de listar todos os RDDs disponíveis na minha sessão atual do Spark Shell?

1 a resposta

SparkSQL: soma condicional usando duas colunas

Espero que você possa me ajudar com isto. Eu tenho um DF da seguinte maneira: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...

1 a resposta

Como o número de partições afeta `wholeTextFiles` e` textFiles`?

Na faísca, eu entendo como usarwholeTextFiles etextFiles, mas não tenho certeza de qual usar quando. Aqui está o que eu sei até agora: Ao lidar com arquivos que não são divididos por linha, deve-se usarwholeTextFiles, caso contrário, ...

1 a resposta

Como salvar um spark dataframe como um arquivo de texto sem linhas no pyspark?

Eu tenho um dataframe "df" com as colunas ['name', 'age'] salvei o dataframe usandodf.rdd.saveAsTextFile("..") para salvá-lo como um rdd. Carreguei o arquivo salvo e, em seguida, collect () fornece o seguinte resultado. a = ...

1 a resposta

O pyspark divide uma coluna em várias colunas sem pandas

minha pergunta é como dividir uma coluna em várias colunas. Não sei porquedf.toPandas() não funciona. Por exemplo, eu gostaria de mudar 'df_test' para 'df_test2'. Eu vi muitos exemplos usando o módulo pandas. Existe outro caminho? Agradeço ...

1 a resposta

O arquivo .py de importação do Pyspark não está funcionando

Meu objetivo é importar um arquivo .py personalizado para o meu aplicativo spark e chamar algumas das funções incluídas dentro desse arquivo Aqui está o que eu tentei: Eu tenho um arquivo de teste chamadoTest.pyque tem a seguinte ...

1 a resposta

Erro Spark __getnewargs__

Estou tentando limpar um Spark DataFrame, mapeando-o para RDD e depois para o DataFrame. Aqui está um exemplo de brinquedo: def replace_values(row,sub_rules): d = row.asDict() for col,old_val,new_val in sub_rules: if d[col] == old_val: d[col] = ...

1 a resposta

Por que meu Spark é mais lento que o Python puro? Comparação de desempenho

Acenda o novato aqui. Tentei fazer alguma ação dos pandas no meu quadro de dados usando o Spark e, surpreendentemente, é mais lento que o Python puro (ou seja, usando o pacote pandas no Python). Aqui está o que eu fiz: 1) No ...

1 a resposta

Como particionar RDIS do pyspark com funções R

import rpy2.robjects as robjects dffunc = sc.parallelize([(0,robjects.r.rnorm),(1,robjects.r.runif)]) dffunc.collect() Saídas [(0, <rpy2.rinterface.SexpClosure - Python:0x7f2ecfc28618 / R:0x26abd18>), (1, <rpy2.rinterface.SexpClosure - ...

1 a resposta

Função Strip ou Regex no Spark 1.3 Dataframe

Eu tenho algum código do PySpark 1.5 que infelizmente tenho que portar para o Spark 1.3. Eu tenho uma coluna com elementos que são alfanuméricos, mas quero apenas os dígitos. Um exemplo dos elementos em 'old_col' de 'df' são: '125 Bytes'No Spark ...