Resultados da pesquisa a pedido "pyspark"
Como listar RDDs definidos no shell Spark?
Nos shells "spark-shell" ou "pyspark", criei muitos RDDs, mas não consegui encontrar uma maneira de listar todos os RDDs disponíveis na minha sessão atual do Spark Shell?
SparkSQL: soma condicional usando duas colunas
Espero que você possa me ajudar com isto. Eu tenho um DF da seguinte maneira: val df = sc.parallelize(Seq( (1, "a", "2014-12-01", "2015-01-01", 100), (2, "a", "2014-12-01", "2015-01-02", 150), (3, "a", "2014-12-01", "2015-01-03", 120), (4, "b", ...
Como o número de partições afeta `wholeTextFiles` e` textFiles`?
Na faísca, eu entendo como usarwholeTextFiles etextFiles, mas não tenho certeza de qual usar quando. Aqui está o que eu sei até agora: Ao lidar com arquivos que não são divididos por linha, deve-se usarwholeTextFiles, caso contrário, ...
Como salvar um spark dataframe como um arquivo de texto sem linhas no pyspark?
Eu tenho um dataframe "df" com as colunas ['name', 'age'] salvei o dataframe usandodf.rdd.saveAsTextFile("..") para salvá-lo como um rdd. Carreguei o arquivo salvo e, em seguida, collect () fornece o seguinte resultado. a = ...
O pyspark divide uma coluna em várias colunas sem pandas
minha pergunta é como dividir uma coluna em várias colunas. Não sei porquedf.toPandas() não funciona. Por exemplo, eu gostaria de mudar 'df_test' para 'df_test2'. Eu vi muitos exemplos usando o módulo pandas. Existe outro caminho? Agradeço ...
O arquivo .py de importação do Pyspark não está funcionando
Meu objetivo é importar um arquivo .py personalizado para o meu aplicativo spark e chamar algumas das funções incluídas dentro desse arquivo Aqui está o que eu tentei: Eu tenho um arquivo de teste chamadoTest.pyque tem a seguinte ...
Erro Spark __getnewargs__
Estou tentando limpar um Spark DataFrame, mapeando-o para RDD e depois para o DataFrame. Aqui está um exemplo de brinquedo: def replace_values(row,sub_rules): d = row.asDict() for col,old_val,new_val in sub_rules: if d[col] == old_val: d[col] = ...
Por que meu Spark é mais lento que o Python puro? Comparação de desempenho
Acenda o novato aqui. Tentei fazer alguma ação dos pandas no meu quadro de dados usando o Spark e, surpreendentemente, é mais lento que o Python puro (ou seja, usando o pacote pandas no Python). Aqui está o que eu fiz: 1) No ...
Como particionar RDIS do pyspark com funções R
import rpy2.robjects as robjects dffunc = sc.parallelize([(0,robjects.r.rnorm),(1,robjects.r.runif)]) dffunc.collect() Saídas [(0, <rpy2.rinterface.SexpClosure - Python:0x7f2ecfc28618 / R:0x26abd18>), (1, <rpy2.rinterface.SexpClosure - ...
Função Strip ou Regex no Spark 1.3 Dataframe
Eu tenho algum código do PySpark 1.5 que infelizmente tenho que portar para o Spark 1.3. Eu tenho uma coluna com elementos que são alfanuméricos, mas quero apenas os dígitos. Um exemplo dos elementos em 'old_col' de 'df' são: '125 Bytes'No Spark ...