Resultados da pesquisa a pedido "rdd"

2 a resposta

Número de partições no RDD e desempenho no Spark

No Pyspark, posso criar um RDD a partir de uma lista e decidir quantas partições ter: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)Como o número de partições que eu decido particionar meu RDD influencia o desempenho? E como isso ...

1 a resposta

Valor do Spark Accumulator não lido pela tarefa

Estou inicializando um acumulador final Accumulator<Integer> accum = sc.accumulator(0); E, enquanto estiver na função de mapa, estou tentando incrementar o acumulador, usando o valor do acumulador para definir uma variável. JavaRDD<UserSetGet> ...

1 a resposta

Spark lendo pickle python3 como entrada

Meus dados estão disponíveis como conjuntos de arquivos pickled do Python 3. A maioria deles é serialização de PandasDataFrames. Eu gostaria de começar a usar o Spark porque preciso de mais memória e CPU que um computador pode ter. Além disso, ...

2 a resposta

pyspark: o objeto 'PipelinedRDD' não é iterável

Estou recebendo esse erro, mas não sei por que. Basicamente, estou com erro neste código: a = data.mapPartitions(helper(locations))onde dados são um RDD e meu ajudante é definido como: def helper(iterator, locations): for x in iterator: c = ...

1 a resposta

Obtenha o valor máximo para cada chave em um Spark RDD

Qual é a melhor maneira de retornar a linha máxima (valor) associada a cada chave exclusiva em um RDD spark? Estou usando python e tentei o Math max, mapeando e reduzindo por chaves e agregados. Existe uma maneira eficiente de fazer isso? ...

1 a resposta

Como converter um RDD [Row] novamente para DataFrame [duplicate]

Esta pergunta já tem uma resposta aqui: Como converter objeto rdd em dataframe no spark [/questions/29383578/how-to-convert-rdd-object-to-dataframe-in-spark] 10 respostasEu tenho brincado com a conversão de RDDs para DataFrames e ...

2 a resposta

Quantas partições o Spark cria quando um arquivo é carregado no bucket do S3?

Se o arquivo for carregado do HDFS por padrão, o spark criará uma partição por bloco. Mas como o spark decide partições quando um arquivo é carregado no bucket do S3?