Resultados da pesquisa a pedido "rdd"

0 a resposta

A operação de RDD collect () está falhando com o erro "Nenhum módulo chamado pyspark"

Estou tentando executar a operação de coleta abaixo no RDD, criada a partir do Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aqui estão algumas observações de obj_filter, obj_filter.show ...

2 a resposta

passando o valor de RDD para outro RDD como variável - Spark #Pyspark [duplicado]

Esta pergunta já tem uma resposta aqui: Como obter um valor do objeto Row no Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 respostasAtualmente, estou explorando como chamar grandes arquivos ...

2 a resposta

pyspark - Agrupando e calculando dados

Eu tenho o seguinte arquivo ...

2 a resposta

O que o Spark recupera os dados de um nó com falha?

Suponha que tenhamos um RDD, que está sendo usado várias vezes. Portanto, para salvar os cálculos repetidamente, persistimos esse RDD usando o método rdd.persist (). Portanto, quando persistimos esse RDD, os nós que computam o RDD armazenam ...

1 a resposta

Dependências de acesso disponíveis no Scala, mas não no PySpark

Estou tentando acessar as dependências de um RDD. No Scala, é um código bastante simples: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at <console>:24 ...

1 a resposta

Use combineByKey para obter a saída como (key, iterable [values])

Estou tentando transformarRDD(key,value) paraRDD(key,iterable[value]), igual à saída retornada pelogroupByKey método. Mas comogroupByKey não é eficiente, estou tentando usarcombineByKey no RDD, no entanto, ele não está funcionando. Abaixo está o ...

1 a resposta

Como o spark lê um arquivo grande (petabyte) quando o arquivo não pode caber na memória principal do spark

O que acontecerá com arquivos grandes nesses casos? 1) O Spark obtém uma localização do NameNode para dados. O Spark será interrompido nesse mesmo tempo porque o tamanho dos dados é muito longo conforme as informações do NameNode? 2) O Spark ...

1 a resposta

Como escrever Pyspark UDAF em várias colunas?

Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...

3 a resposta

Como posso contar a média do Spark RDD?

Tenho um problema com o Spark Scala, que quero contar a média dos dados Rdd, crio um novo RDD como este, [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)]Quero contá-los ...

1 a resposta

Filtragem de faísca com regex

Estou tentando filtrar dados de arquivo em dados bons e ruins por data, portanto, obterá 2 arquivos de resultado. No arquivo de teste, as 4 primeiras linhas precisam entrar em bons dados e as 2 últimas em dados ruins. Estou com 2 problemas Não ...