Resultados da pesquisa a pedido "rdd"
Multiplicação de matrizes no Apache Spark [fechado]
Estou tentando executar a multiplicação de matrizes usando Apache Spark e Java. Eu tenho 2 perguntas principais: Como criar RDD que pode representar matriz no Apache Spark?Como multiplicar dois desses RDDs?
O dataframe do Spark transforma várias linhas em coluna
Eu sou um novato para despertar, e querotransformarabaixodataframe de origem (carregar do arquivo JSON): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| ...
União de faísca de vários RDDs
No meu código de porco, faço o seguinte: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Eu quero fazer o mesmo com faísca. No entanto, infelizmente, vejo que tenho que continuar fazendo isso aos ...
Crie a maneira mais rápida de criar RDD de matrizes numpy
Meu aplicativo spark está usando RDDs de matrizes numpy. No momento, estou lendo meus dados da AWS S3 e eles são representados como um arquivo de texto simples, onde cada linha é um vetor e cada elemento é separado pelo espaço, por exemplo: 1 2 ...
Spark: espaço insuficiente para armazenar em cache o vermelho no contêiner enquanto ainda resta muita memória total de armazenamento
Eu tenho um cluster de 30 nós, cada nó tem 32 núcleos, 240 G de memória (instância da AWS cr1.8xlarge). Eu tenho as seguintes configurações: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90Eu ...
Retornar RDD dos maiores valores de N de outro RDD no SPARK
Estou tentando filtrar um RDD de tuplas para retornar as maiores N tuplas com base nos valores-chave. Eu preciso do formato de retorno para ser um RDD. Então o RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]filtrado para as ...
O que é RDD no Spark
A definição diz: RDD é uma coleção distribuída imutável de objetos Não entendo bem o que isso significa. São como dados (objetos particionados) armazenados no disco rígido? Em caso afirmativo, como os RDDs podem ter classes definidas pelo ...
Fluxo de pilha devido à longa linhagem RDD
Eu tenho milhares de arquivos pequenos no HDFS. Como processar um subconjunto de arquivos um pouco menor (que é novamente em milhares), fileList contém uma lista de caminhos de arquivos que precisam ser processados. // fileList == list of ...
Esquema de Particionamento Padrão no Spark
Quando executo o comando abaixo: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...
O que significa "Estágio ignorado" na interface da web do Apache Spark?
Da minha interface do Spark. O que significa ignorar? [/imgs/cyvd1.png]