Resultados da pesquisa a pedido "rdd"

3 a resposta

Spark: subtrair dois DataFrames

Na versão Spark1.2.0 alguém poderia usarsubtract com 2SchemRDDs para terminar com apenas o conteúdo diferente do primeiro val onlyNewData = todaySchemaRDD.subtract(yesterdaySchemaRDD)onlyNewData contém as linhas emtodaySchemRDD que não existem ...

2 a resposta

É possível criar RDDs aninhados no Apache Spark?

Eu estou tentando implementar o algoritmo vizinho K-mais próximo no Spark. Eu queria saber se é possível trabalhar com RDD aninhados. Isso tornará minha vida muito mais fácil. Considere o seguinte trecho de código. public static void main ...

1 a resposta

como interpretar RDD.treeAggregate

Eu encontreiestá linha [https://github.com/apache/spark/blob/01f09b161217193b797c8c85969d17054c958615/mllib/src/main/scala/org/apache/spark/mllib/optimization/GradientDescent.scala#L236-L248] na fonte de código do Apache Spark val (gradientSum, ...

4 a resposta

Calculando as médias para cada KEY em um RDD Pairwise (K, V) no Spark com Python

Eu quero compartilhar esta solução específica do Apache Spark com Python, porque a documentação para ela é bastante pobre. Eu queria calcular o valor médio dos pares K / V (armazenados em um Pairwise RDD), por KEY. Aqui está a aparência dos ...

3 a resposta

Como imprimir elementos de partição RDD específica no Spark?

Como imprimir os elementos de uma partição específica, digamos a 5ª, sozinho? val distData = sc.parallelize(1 to 50, 10)

4 a resposta

redByKey: Como funciona internamente?

Eu sou novo no Spark e Scala. Eu estava confuso sobre o modo como a função reduzirByKey funciona no Spark. Suponha que tenhamos o seguinte código: val lines = sc.textFile("data.txt") val pairs = lines.map(s => (s, 1)) val counts = ...

2 a resposta

Faísca quando a união de muitos RDD gera erro de estouro de pilha

Quando eu uso "++" para combinar muitos RDDs, obtive uma pilha de erros sobre um erro de fluxo. Spark versão 1.3.1 Ambiente: cliente-fio. --driver-memory 8G O número de RDDs é superior a 4000. Cada RDD é lido a partir de um arquivo de texto com ...

2 a resposta

Como verificar se o Spark RDD está na memória?

Eu tenho uma instância de org.apache.spark.rdd.RDD [MyClass]. Como posso verificar programaticamente se a instância é persistente \ na memória?

1 a resposta

Gravação do Spark rdd na lista global

Como escrever na lista global com rdd? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Quando tento imprimir Li, o resultado é: [] O que estou tentando fazer é transformar outra lista global Li1 ...

1 a resposta

Existe uma maneira de reescrever o Spark RDD distinto para usar mapPartitions em vez de distinto?

Eu tenho um RDD muito grande para executar consistentemente uma declaração distinta sem erros espúrios (por exemplo, o estágio SparkException falhou 4 vezes, ExecutorLostFailure, sistema de arquivos HDFS fechado, número máximo de falhas do ...