Resultados da pesquisa a pedido "rdd"

Estou tentando executar a multiplicação de matrizes usando Apache Spark e Java. Eu tenho 2 perguntas principais: Como criar RDD que pode representar matriz no Apache Spark?Como multiplicar dois desses RDDs?

dataframe apache-spark-sql python apache-spark

2 a resposta

O dataframe do Spark transforma várias linhas em coluna

Eu sou um novato para despertar, e querotransformarabaixodataframe de origem (carregar do arquivo JSON): +--+-----+-----+ |A |count|major| +--+-----+-----+ | a| 1| m1| | a| 1| m2| | a| 2| m3| | a| 3| m4| | b| 4| m1| | b| 1| m2| | b| 2| m3| | c| ...

apache-spark python pyspark

2 a resposta

União de faísca de vários RDDs

No meu código de porco, faço o seguinte: all_combined = Union relation1, relation2, relation3, relation4, relation5, relation 6.Eu quero fazer o mesmo com faísca. No entanto, infelizmente, vejo que tenho que continuar fazendo isso aos ...

python apache-spark numpy pyspark

3 a resposta

Crie a maneira mais rápida de criar RDD de matrizes numpy

Meu aplicativo spark está usando RDDs de matrizes numpy. No momento, estou lendo meus dados da AWS S3 e eles são representados como um arquivo de texto simples, onde cada linha é um vetor e cada elemento é separado pelo espaço, por exemplo: 1 2 ...

apache-spark memory storage

0 a resposta

Spark: espaço insuficiente para armazenar em cache o vermelho no contêiner enquanto ainda resta muita memória total de armazenamento

Eu tenho um cluster de 30 nós, cada nó tem 32 núcleos, 240 G de memória (instância da AWS cr1.8xlarge). Eu tenho as seguintes configurações: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90Eu ...

python apache-spark pyspark

2 a resposta

Retornar RDD dos maiores valores de N de outro RDD no SPARK

Estou tentando filtrar um RDD de tuplas para retornar as maiores N tuplas com base nos valores-chave. Eu preciso do formato de retorno para ser um RDD. Então o RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')]filtrado para as ...

apache-spark scala hadoop

8 a resposta

O que é RDD no Spark

A definição diz: RDD é uma coleção distribuída imutável de objetos Não entendo bem o que isso significa. São como dados (objetos particionados) armazenados no disco rígido? Em caso afirmativo, como os RDDs podem ter classes definidas pelo ...

apache-spark scala

1 a resposta

Fluxo de pilha devido à longa linhagem RDD

Eu tenho milhares de arquivos pequenos no HDFS. Como processar um subconjunto de arquivos um pouco menor (que é novamente em milhares), fileList contém uma lista de caminhos de arquivos que precisam ser processados. // fileList == list of ...

partitioning apache-spark

1 a resposta

Esquema de Particionamento Padrão no Spark

Quando executo o comando abaixo: scala> val rdd = sc.parallelize(List((1,2),(3,4),(3,6)),4).partitionBy(new HashPartitioner(10)).persist() rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at partitionBy at <console>:22 scala> ...

apache-spark

1 a resposta

O que significa "Estágio ignorado" na interface da web do Apache Spark?

Da minha interface do Spark. O que significa ignorar? [/imgs/cyvd1.png]

Página 10 do 12

8 91011 12

Resultados da pesquisa a pedido "rdd"

Multiplicação de matrizes no Apache Spark [fechado]

O dataframe do Spark transforma várias linhas em coluna

União de faísca de vários RDDs

Tags populares

Crie a maneira mais rápida de criar RDD de matrizes numpy

Spark: espaço insuficiente para armazenar em cache o vermelho no contêiner enquanto ainda resta muita memória total de armazenamento

Retornar RDD dos maiores valores de N de outro RDD no SPARK

O que é RDD no Spark

Fluxo de pilha devido à longa linhagem RDD

Esquema de Particionamento Padrão no Spark

O que significa "Estágio ignorado" na interface da web do Apache Spark?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "rdd"

Tags populares