Resultados da pesquisa a pedido "rdd"
Use combineByKey para obter a saída como (key, iterable [values])
Estou tentando transformarRDD(key,value) paraRDD(key,iterable[value]), igual à saída retornada pelogroupByKey método. Mas comogroupByKey não é eficiente, estou tentando usarcombineByKey no RDD, no entanto, ele não está funcionando. Abaixo está o ...
Como extrair um elemento de uma matriz no pyspark
Eu tenho um quadro de dados com o seguinte tipo col1|col2|col3|col4 xxxx|yyyy|zzzz|[1111],[2222]Quero que minha saída esteja seguindo o tipo col1|col2|col3|col4|col5 xxxx|yyyy|zzzz|1111|2222Meu col4 é uma matriz e quero convertê-lo em uma ...
número máximo de colunas que podemos ter no dataframe spark scala
Gosto de saber o número máximo de colunas que posso ter no quadro de dados. Existe alguma limitação na manutenção do número de colunas nos quadros de dados. Obrigado.
Filtragem de faísca com regex
Estou tentando filtrar dados de arquivo em dados bons e ruins por data, portanto, obterá 2 arquivos de resultado. No arquivo de teste, as 4 primeiras linhas precisam entrar em bons dados e as 2 últimas em dados ruins. Estou com 2 problemas Não ...
Por que o RDD.foreach falha com "SparkException: este RDD não possui um SparkContext"?
Eu tenho um conjunto de dados (como umRDD) que divido em 4 RDDs usando diferentesfilter operadores. val RSet = datasetRdd. flatMap(x => RSetForAttr(x, alLevel, hieDict)). map(x => (x, 1)). reduceByKey((x, y) => x + y) val Rp:RDD[(String, Int)] = ...
Como posso contar a média do Spark RDD?
Tenho um problema com o Spark Scala, que quero contar a média dos dados Rdd, crio um novo RDD como este, [(2,110),(2,130),(2,120),(3,200),(3,206),(3,206),(4,150),(4,160),(4,170)]Quero contá-los ...
Como escrever Pyspark UDAF em várias colunas?
Eu tenho os seguintes dados em um dataframe pyspark chamadoend_stats_df: values start end cat1 cat2 10 1 2 A B 11 1 2 C B 12 1 2 D B 510 1 2 D C 550 1 2 C B 500 1 2 A B 80 1 3 A BE eu quero agregá-lo da seguinte maneira: Eu quero usar as ...
Particionamento do parquet Spark: grande número de arquivos
Estou tentando aproveitar o particionamento de faísca. Eu estava tentando fazer algo como data.write.partitionBy("key").parquet("/location")O problema aqui em cada partição cria um grande número de arquivos parquet, que resultam em ...
Dependências de acesso disponíveis no Scala, mas não no PySpark
Estou tentando acessar as dependências de um RDD. No Scala, é um código bastante simples: scala> val myRdd = sc.parallelize(0 to 9).groupBy(_ % 2) myRdd: org.apache.spark.rdd.RDD[(Int, Iterable[Int])] = ShuffledRDD[2] at groupBy at <console>:24 ...
O que o Spark recupera os dados de um nó com falha?
Suponha que tenhamos um RDD, que está sendo usado várias vezes. Portanto, para salvar os cálculos repetidamente, persistimos esse RDD usando o método rdd.persist (). Portanto, quando persistimos esse RDD, os nós que computam o RDD armazenam ...