Resultados da pesquisa a pedido "rdd"

Estou carregando um arquivo de objetos JSON como um PySparkSchemaRDD. Eu quero alterar a "forma" dos objetos (basicamente, eu estou achatando-os) e depois inseri-los em uma tabela do Hive. O problema que tenho é que o seguinte retorna ...

distributed-computing apache-spark

9 a resposta

Spark - repartição () vs coalescência ()

De acordo com o Learning Spark Lembre-se de que o reparticionamento dos dados é uma operação bastante cara. O Spark também possui uma versão otimizada da repartição () chamada coalesce () que permite evitar a movimentação de dados, mas apenas se ...

apache-spark apache-spark-mllib scala apache-spark-sql

1 a resposta

Conversão RDD para LabeledPoint

Se eu tiver um RDD com cerca de 500 colunas e 200 milhões de linhas, eRDD.columns.indexOf("target", 0) mostraInt = 77 que indica que minha variável dependente direcionada está na coluna número 77. Mas não tenho conhecimento suficiente sobre como ...

apache-spark cloudera-cdh

1 a resposta

O RDD do cache Spark não aparece no Spark History WebUI - Armazenamento

estou usandoSpark-1.4.1 noCDH-5.4.4. eu usordd.cache() função, mas não mostra nada emStorage tab emSpark History WebUI Alguém tem os mesmos problemas? Como corrigi-lo?

pyspark python apache-spark random

2 a resposta

Geração de números aleatórios no PySpark

Vamos começar com uma função simples que sempre retorna um número inteiro aleatório: import numpy as np def f(x): return np.random.randint(1000)e um RDD preenchido com zeros e mapeado usandof: rdd = sc.parallelize([0] * 10).map(f)Como o RDD ...

apache-spark persist shuffle

4 a resposta

Spark: Diferença entre gravação aleatória, derramamento aleatório (memória), derramamento aleatório (disco)?

Eu tenho o seguinte trabalho de faísca, tentando manter tudo na memória: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { (p1, p2) ...

spark-streaming apache-spark

2 a resposta

Haverá algum cenário em que o Spark RDD não consiga satisfazer a imutabilidade.?

Os RDDs Spark são construídos de maneira imutável, tolerante a falhas e resiliente. Os RDDs atendem à imutabilidade em todos os cenários? Ou há algum caso, seja em Streaming ou Core, onde o RDD pode falhar em satisfazer a imutabilidade?

apache-spark python performance scala

1 a resposta

Desempenho do Spark para Scala vs Python

Eu prefiro Python a Scala. Mas, como o Spark é originalmente escrito em Scala, eu esperava que meu código fosse executado mais rapidamente no Scala que na versão Python por razões óbvias. Com essa suposição, pensei em aprender e escrever a ...

apache-spark

1 a resposta

Como obter dados de uma partição específica no Spark RDD?

Desejo acessar dados de uma partição específica no Spark RDD. Eu posso obter o endereço de uma partição da seguinte maneira: myRDD.partitions(0)Mas eu quero obter dados demyRDD.partitions(0) partição. Tentei a documentação oficial ...

apache-spark python pyspark

1 a resposta

Passando funções de classe para o PySpark RDD

Eu tenho uma classe chamada some_class () em um arquivo Python aqui: /some-folder/app/bin/file.pyEstou importando-o para o meu código aqui: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...

Página 8 do 12

6 789 10

Resultados da pesquisa a pedido "rdd"

PySpark: Mapeie um SchemaRDD para um SchemaRDD

Spark - repartição () vs coalescência ()

Conversão RDD para LabeledPoint

Tags populares

O RDD do cache Spark não aparece no Spark History WebUI - Armazenamento

Geração de números aleatórios no PySpark

Spark: Diferença entre gravação aleatória, derramamento aleatório (memória), derramamento aleatório (disco)?

Haverá algum cenário em que o Spark RDD não consiga satisfazer a imutabilidade.?

Desempenho do Spark para Scala vs Python

Como obter dados de uma partição específica no Spark RDD?

Passando funções de classe para o PySpark RDD

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "rdd"

Tags populares