Resultados da pesquisa a pedido "rdd"

Estou tentando executar a operação de coleta abaixo no RDD, criada a partir do Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aqui estão algumas observações de obj_filter, obj_filter.show ...

apache-spark dataframe pyspark

2 a resposta

passando o valor de RDD para outro RDD como variável - Spark #Pyspark [duplicado]

Esta pergunta já tem uma resposta aqui: Como obter um valor do objeto Row no Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 respostasAtualmente, estou explorando como chamar grandes arquivos ...

apache-spark pyspark python

2 a resposta

pyspark - Agrupando e calculando dados

Eu tenho o seguinte arquivo ...

spark-streaming apache-spark failover

2 a resposta

O que o Spark recupera os dados de um nó com falha?

Suponha que tenhamos um RDD, que está sendo usado várias vezes. Portanto, para salvar os cálculos repetidamente, persistimos esse RDD usando o método rdd.persist (). Portanto, quando persistimos esse RDD, os nós que computam o RDD armazenam ...

python apache-spark

1 a resposta

Dependências de acesso disponíveis no Scala, mas não no PySpark

Estou tentando acessar as dependências de um RDD. No Scala, é um código bastante simples: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at <console>:24 ...

scala hadoop apache-spark

1 a resposta

Use combineByKey para obter a saída como (key, iterable [values])

Estou tentando transformarRDD(key,value) paraRDD(key,iterable[value]), igual à saída retornada pelogroupByKey método. Mas comogroupByKey não é eficiente, estou tentando usarcombineByKey no RDD, no entanto, ele não está funcionando. Abaixo está o ...

partition apache-spark

1 a resposta

Como o spark lê um arquivo grande (petabyte) quando o arquivo não pode caber na memória principal do spark

O que acontecerá com arquivos grandes nesses casos? 1) O Spark obtém uma localização do NameNode para dados. O Spark será interrompido nesse mesmo tempo porque o tamanho dos dados é muito longo conforme as informações do NameNode? 2) O Spark ...

apache-spark pyspark spark-dataframe

1 a resposta

Como escrever Pyspark UDAF em várias colunas?

Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...

scala apache-spark

3 a resposta

Como posso contar a média do Spark RDD?

Tenho um problema com o Spark Scala, que quero contar a média dos dados Rdd, crio um novo RDD como este, [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)]Quero contá-los ...

apache-spark scala

1 a resposta

Filtragem de faísca com regex

Estou tentando filtrar dados de arquivo em dados bons e ruins por data, portanto, obterá 2 arquivos de resultado. No arquivo de teste, as 4 primeiras linhas precisam entrar em bons dados e as 2 últimas em dados ruins. Estou com 2 problemas Não ...

Página 1 do 12

12 3 4 5

Resultados da pesquisa a pedido "rdd"

A operação de RDD collect () está falhando com o erro "Nenhum módulo chamado pyspark"

passando o valor de RDD para outro RDD como variável - Spark #Pyspark [duplicado]

pyspark - Agrupando e calculando dados

Tags populares

O que o Spark recupera os dados de um nó com falha?

Dependências de acesso disponíveis no Scala, mas não no PySpark

Use combineByKey para obter a saída como (key, iterable [values])

Como o spark lê um arquivo grande (petabyte) quando o arquivo não pode caber na memória principal do spark

Como escrever Pyspark UDAF em várias colunas?

Como posso contar a média do Spark RDD?

Filtragem de faísca com regex

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "rdd"

Tags populares