Resultados da pesquisa a pedido "rdd"
PySpark: Mapeie um SchemaRDD para um SchemaRDD
Estou carregando um arquivo de objetos JSON como um PySparkSchemaRDD. Eu quero alterar a "forma" dos objetos (basicamente, eu estou achatando-os) e depois inseri-los em uma tabela do Hive. O problema que tenho é que o seguinte retorna ...
Spark - repartição () vs coalescência ()
De acordo com o Learning Spark Lembre-se de que o reparticionamento dos dados é uma operação bastante cara. O Spark também possui uma versão otimizada da repartição () chamada coalesce () que permite evitar a movimentação de dados, mas apenas se ...
Conversão RDD para LabeledPoint
Se eu tiver um RDD com cerca de 500 colunas e 200 milhões de linhas, eRDD.columns.indexOf("target", 0) mostraInt = 77 que indica que minha variável dependente direcionada está na coluna número 77. Mas não tenho conhecimento suficiente sobre como ...
O RDD do cache Spark não aparece no Spark History WebUI - Armazenamento
estou usandoSpark-1.4.1 noCDH-5.4.4. eu usordd.cache() função, mas não mostra nada emStorage tab emSpark History WebUI Alguém tem os mesmos problemas? Como corrigi-lo?
Geração de números aleatórios no PySpark
Vamos começar com uma função simples que sempre retorna um número inteiro aleatório: import numpy as np def f(x): return np.random.randint(1000)e um RDD preenchido com zeros e mapeado usandof: rdd = sc.parallelize([0] * 10).map(f)Como o RDD ...
Spark: Diferença entre gravação aleatória, derramamento aleatório (memória), derramamento aleatório (disco)?
Eu tenho o seguinte trabalho de faísca, tentando manter tudo na memória: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { (p1, p2) ...
Haverá algum cenário em que o Spark RDD não consiga satisfazer a imutabilidade.?
Os RDDs Spark são construídos de maneira imutável, tolerante a falhas e resiliente. Os RDDs atendem à imutabilidade em todos os cenários? Ou há algum caso, seja em Streaming ou Core, onde o RDD pode falhar em satisfazer a imutabilidade?
Desempenho do Spark para Scala vs Python
Eu prefiro Python a Scala. Mas, como o Spark é originalmente escrito em Scala, eu esperava que meu código fosse executado mais rapidamente no Scala que na versão Python por razões óbvias. Com essa suposição, pensei em aprender e escrever a ...
Como obter dados de uma partição específica no Spark RDD?
Desejo acessar dados de uma partição específica no Spark RDD. Eu posso obter o endereço de uma partição da seguinte maneira: myRDD.partitions(0)Mas eu quero obter dados demyRDD.partitions(0) partição. Tentei a documentação oficial ...
Passando funções de classe para o PySpark RDD
Eu tenho uma classe chamada some_class () em um arquivo Python aqui: /some-folder/app/bin/file.pyEstou importando-o para o meu código aqui: /some-folder2/app/code/file2.pyPor import sys sys.path.append('/some-folder/app/bin') from file import ...