Resultados da pesquisa a pedido "rdd"

1 a resposta

Use combineByKey para obter a saída como (key, iterable [values])

Estou tentando transformarRDD(key,value) paraRDD(key,iterable[value]), igual à saída retornada pelogroupByKey método. Mas comogroupByKey não é eficiente, estou tentando usarcombineByKey no RDD, no entanto, ele não está funcionando. Abaixo está o ...

1 a resposta

Como extrair um elemento de uma matriz no pyspark

Eu tenho um quadro de dados com o seguinte tipo col1|col2|col3|col4 xxxx|yyyy|zzzz|[1111],[2222]Quero que minha saída esteja seguindo o tipo col1|col2|col3|col4|col5 xxxx|yyyy|zzzz|1111|2222Meu col4 é uma matriz e quero convertê-lo em uma ...

1 a resposta

número máximo de colunas que podemos ter no dataframe spark scala

Gosto de saber o número máximo de colunas que posso ter no quadro de dados. Existe alguma limitação na manutenção do número de colunas nos quadros de dados. Obrigado.

1 a resposta

Filtragem de faísca com regex

Estou tentando filtrar dados de arquivo em dados bons e ruins por data, portanto, obterá 2 arquivos de resultado. No arquivo de teste, as 4 primeiras linhas precisam entrar em bons dados e as 2 últimas em dados ruins. Estou com 2 problemas Não ...

1 a resposta

Por que o RDD.foreach falha com "SparkException: este RDD não possui um SparkContext"?

Eu tenho um conjunto de dados (como umRDD) que divido em 4 RDDs usando diferentesfilter operadores. val RSet = datasetRdd. flatMap(x => RSetForAttr(x, alLevel, hieDict)). map(x => (x, 1)). reduceByKey((x, y) => x + y) val Rp:RDD[(String, Int)] = ...

3 a resposta

Como posso contar a média do Spark RDD?

Tenho um problema com o Spark Scala, que quero contar a média dos dados Rdd, crio um novo RDD como este, [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)]Quero contá-los ...

1 a resposta

Como escrever Pyspark UDAF em várias colunas?

Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...

2 a resposta

Particionamento do parquet Spark: grande número de arquivos

Estou tentando aproveitar o particionamento de faísca. Eu estava tentando fazer algo como data.write.partitionBy("key").parquet("/location")O problema aqui em cada partição cria um grande número de arquivos parquet, que resultam em ...

1 a resposta

Dependências de acesso disponíveis no Scala, mas não no PySpark

Estou tentando acessar as dependências de um RDD. No Scala, é um código bastante simples: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at <console>:24 ...

2 a resposta

O que o Spark recupera os dados de um nó com falha?

Suponha que tenhamos um RDD, que está sendo usado várias vezes. Portanto, para salvar os cálculos repetidamente, persistimos esse RDD usando o método rdd.persist (). Portanto, quando persistimos esse RDD, os nós que computam o RDD armazenam ...