Resultados da pesquisa a pedido "rdd"
Como ler da hbase usando o spark
O código abaixo lerá a partir do hbase, depois o converterá em estrutura json e o converterá em schemaRDD, mas o problema é que eu souusing List para armazenar a string json e passar para javaRDD, para dados de cerca de 100 GB, o mestre será ...
Como forçar o Spark a avaliar as operações do DataFrame em linha
De acordo comDocumentos do Spark RDD [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas as transformações no Spark são preguiçosas, pois não computam seus resultados imediatamente ... Esse design permite que o ...
Particionar RDD em tuplas de comprimento n
Eu sou relativamente novo no Apache Spark e Python e queria saber se algo como o que vou descrever é factível? Eu tenho um RDD do formato [m1m2m3m4m5m6....... mn$8Eu tenho um RDD do formato [m9m10m11m12m13m14$n-2mn-1mn)]. As tuplas internas ...
Igualdade de DataFrame no Apache Spark
Presumirdf1 edf2 são doisDataFrames no Apache Spark, calculado usando dois mecanismos diferentes, por exemplo, Spark SQL versus a API Scala / Java / Python. Existe uma maneira idiomática de determinar se os dois quadros de dados são equivalentes ...
Preguiçoso foreach em um Spark RDD
Eu tenho um grande RDD de Strings (obtido através de uma união de váriossc.textFile(...)). Agora, quero procurar uma determinada string nesse RDD e quero que a pesquisa pare quando uma correspondência "boa o suficiente" for encontrada. Eu ...
Como posso obter uma posição de elemento no RDD do Spark?
Eu sou novo no Apache Spark e sei que a estrutura de dados principal é RDD. Agora estou escrevendo alguns aplicativos que requerem informações posicionais de elementos. Por exemplo, depois de converter um ArrayList em um RDD (Java), para cada ...
Como nivelar listas aninhadas no PySpark?
Eu tenho uma estrutura RDD como: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]]e eu quero que ele se torne: rdd = [1,2,3,4,5,6,7,8,9,10]Como escrevo um mapa ou reduzo a função para fazê-lo funcionar?
Spark: espaço insuficiente para armazenar em cache o vermelho no contêiner enquanto ainda resta muita memória total de armazenamento
Eu tenho um cluster de 30 nós, cada nó tem 32 núcleos, 240 G de memória (instância da AWS cr1.8xlarge). Eu tenho as seguintes configurações: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90Eu ...
O spark mantém todos os elementos de um RDD [K, V] para uma chave específica em uma única partição após “groupByKey”, mesmo que os dados de uma chave sejam muito grandes?
Considere que eu tenho um PairedRDD, digamos 10 partições. Mas as chaves não são distribuídas uniformemente, ou seja, todas as 9 partições que possuem dados pertencem a uma única chave, digamosa e o resto das teclas dizb,c existem apenas na ...
Como calcular o melhor numberOfPartitions para coalescer?
Então, eu entendo que em geral deve-se usarcoalesce() quando: o número de partições diminui devido a umafilter ou alguma outra operação que possa resultar na redução do conjunto de dados original (RDD, DF).coalesce() é útil para executar ...