Resultados da pesquisa a pedido "rdd"
Spark: subtrair dois DataFrames
Na versão Spark1.2.0 alguém poderia usarsubtract com 2SchemRDDs para terminar com apenas o conteúdo diferente do primeiro val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)onlyNewData contém as linhas emtodaySchemRDD que não existem ...
É possível criar RDDs aninhados no Apache Spark?
Eu estou tentando implementar o algoritmo vizinho K-mais próximo no Spark. Eu queria saber se é possível trabalhar com RDD aninhados. Isso tornará minha vida muito mais fácil. Considere o seguinte trecho de código. public static void main ...
como interpretar RDD.treeAggregate
Eu encontreiestá linha [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] na fonte de código do Apache Spark val (gradientSum, ...
Calculando as médias para cada KEY em um RDD Pairwise (K, V) no Spark com Python
Eu quero compartilhar esta solução específica do Apache Spark com Python, porque a documentação para ela é bastante pobre. Eu queria calcular o valor médio dos pares K / V (armazenados em um Pairwise RDD), por KEY. Aqui está a aparência dos ...
Como imprimir elementos de partição RDD específica no Spark?
Como imprimir os elementos de uma partição específica, digamos a 5ª, sozinho? val distData = sc.parallelize(1 to 50, 10)
redByKey: Como funciona internamente?
Eu sou novo no Spark e Scala. Eu estava confuso sobre o modo como a função reduzirByKey funciona no Spark. Suponha que tenhamos o seguinte código: val lines = sc.textFile("data.txt") val pairs = lines.map(s => (s, 1)) val counts = ...
Faísca quando a união de muitos RDD gera erro de estouro de pilha
Quando eu uso "++" para combinar muitos RDDs, obtive uma pilha de erros sobre um erro de fluxo. Spark versão 1.3.1 Ambiente: cliente-fio. --driver-memory 8G O número de RDDs é superior a 4000. Cada RDD é lido a partir de um arquivo de texto com ...
Como verificar se o Spark RDD está na memória?
Eu tenho uma instância de org.apache.spark.rdd.RDD [MyClass]. Como posso verificar programaticamente se a instância é persistente \ na memória?
Gravação do Spark rdd na lista global
Como escrever na lista global com rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Quando tento imprimir Li, o resultado é: [] O que estou tentando fazer é transformar outra lista global Li1 ...
Existe uma maneira de reescrever o Spark RDD distinto para usar mapPartitions em vez de distinto?
Eu tenho um RDD muito grande para executar consistentemente uma declaração distinta sem erros espúrios (por exemplo, o estágio SparkException falhou 4 vezes, ExecutorLostFailure, sistema de arquivos HDFS fechado, número máximo de falhas do ...