Resultados da pesquisa a pedido "rdd"

4 a resposta

PySpark: Mapeie um SchemaRDD para um SchemaRDD

Estou carregando um arquivo de objetos JSON como um PySparkSchemaRDD. Eu quero alterar a "forma" dos objetos (basicamente, eu estou achatando-os) e depois inseri-los em uma tabela do Hive. O problema que tenho é que o seguinte retorna ...

9 a resposta

Spark - repartição () vs coalescência ()

De acordo com o Learning Spark Lembre-se de que o reparticionamento dos dados é uma operação bastante cara. O Spark também possui uma versão otimizada da repartição () chamada coalesce () que permite evitar a movimentação de dados, mas apenas se ...

1 a resposta

Conversão RDD para LabeledPoint

Se eu tiver um RDD com cerca de 500 colunas e 200 milhões de linhas, eRDD.columns.indexOf("target", 0) mostraInt = 77 que indica que minha variável dependente direcionada está na coluna número 77. Mas não tenho conhecimento suficiente sobre como ...

1 a resposta

O RDD do cache Spark não aparece no Spark History WebUI - Armazenamento

estou usandoSpark-1.4.1 noCDH-5.4.4. eu usordd.cache() função, mas não mostra nada emStorage tab emSpark History WebUI Alguém tem os mesmos problemas? Como corrigi-lo?

2 a resposta

Geração de números aleatórios no PySpark

Vamos começar com uma função simples que sempre retorna um número inteiro aleatório: import numpy as np def f(x): return np.random.randint(1000)e um RDD preenchido com zeros e mapeado usandof: rdd = sc.parallelize([0] * 10).map(f)Como o RDD ...

4 a resposta

Spark: Diferença entre gravação aleatória, derramamento aleatório (memória), derramamento aleatório (disco)?

Eu tenho o seguinte trabalho de faísca, tentando manter tudo na memória: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { (p1, p2) ...

2 a resposta

Haverá algum cenário em que o Spark RDD não consiga satisfazer a imutabilidade.?

Os RDDs Spark são construídos de maneira imutável, tolerante a falhas e resiliente. Os RDDs atendem à imutabilidade em todos os cenários? Ou há algum caso, seja em Streaming ou Core, onde o RDD pode falhar em satisfazer a imutabilidade?

1 a resposta

Desempenho do Spark para Scala vs Python

Eu prefiro Python a Scala. Mas, como o Spark é originalmente escrito em Scala, eu esperava que meu código fosse executado mais rapidamente no Scala que na versão Python por razões óbvias. Com essa suposição, pensei em aprender e escrever a ...

1 a resposta

Como obter dados de uma partição específica no Spark RDD?

Desejo acessar dados de uma partição específica no Spark RDD. Eu posso obter o endereço de uma partição da seguinte maneira: myRDD.partitions(0)Mas eu quero obter dados demyRDD.partitions(0) partição. Tentei a documentação oficial ...

1 a resposta

Passando funções de classe para o PySpark RDD

Eu tenho uma classe chamada some_class () em um arquivo Python aqui: /some-folder/app/bin/file.pyEstou importando-o para o meu código aqui: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...