Resultados da pesquisa a pedido "rdd"

O código abaixo lerá a partir do hbase, depois o converterá em estrutura json e o converterá em schemaRDD, mas o problema é que eu souusing List para armazenar a string json e passar para javaRDD, para dados de cerca de 100 GB, o mestre será ...

lazy-evaluation apache-spark distributed-computing spark-dataframe

2 a resposta

Como forçar o Spark a avaliar as operações do DataFrame em linha

De acordo comDocumentos do Spark RDD [http://spark.apache.org/docs/latest/programming-guide.html#rdd-operations]: Todas as transformações no Spark são preguiçosas, pois não computam seus resultados imediatamente ... Esse design permite que o ...

pyspark apache-spark python

3 a resposta

Particionar RDD em tuplas de comprimento n

Eu sou relativamente novo no Apache Spark e Python e queria saber se algo como o que vou descrever é factível? Eu tenho um RDD do formato [m1m2m3m4m5m6....... mn$8Eu tenho um RDD do formato [m9m10m11m12m13m14$n-2mn-1mn)]. As tuplas internas ...

scala dataframe apache-spark apache-spark-sql

5 a resposta

Igualdade de DataFrame no Apache Spark

Presumirdf1 edf2 são doisDataFrames no Apache Spark, calculado usando dois mecanismos diferentes, por exemplo, Spark SQL versus a API Scala / Java / Python. Existe uma maneira idiomática de determinar se os dois quadros de dados são equivalentes ...

apache-spark lazy-sequences

2 a resposta

Preguiçoso foreach em um Spark RDD

Eu tenho um grande RDD de Strings (obtido através de uma união de váriossc.textFile(...)). Agora, quero procurar uma determinada string nesse RDD e quero que a pesquisa pare quando uma correspondência "boa o suficiente" for encontrada. Eu ...

apache-spark position

2 a resposta

Como posso obter uma posição de elemento no RDD do Spark?

Eu sou novo no Apache Spark e sei que a estrutura de dados principal é RDD. Agora estou escrevendo alguns aplicativos que requerem informações posicionais de elementos. Por exemplo, depois de converter um ArrayList em um RDD (Java), para cada ...

python apache-spark

1 a resposta

Como nivelar listas aninhadas no PySpark?

Eu tenho uma estrutura RDD como: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]]e eu quero que ele se torne: rdd = [1,2,3,4,5,6,7,8,9,10]Como escrevo um mapa ou reduzo a função para fazê-lo funcionar?

apache-spark memory storage

0 a resposta

Spark: espaço insuficiente para armazenar em cache o vermelho no contêiner enquanto ainda resta muita memória total de armazenamento

Eu tenho um cluster de 30 nós, cada nó tem 32 núcleos, 240 G de memória (instância da AWS cr1.8xlarge). Eu tenho as seguintes configurações: --driver-memory 200g --driver-cores 30 --executor-memory 70g --executor-cores 8 --num-executors 90Eu ...

apache-spark

1 a resposta

O spark mantém todos os elementos de um RDD [K, V] para uma chave específica em uma única partição após “groupByKey”, mesmo que os dados de uma chave sejam muito grandes?

Considere que eu tenho um PairedRDD, digamos 10 partições. Mas as chaves não são distribuídas uniformemente, ou seja, todas as 9 partições que possuem dados pertencem a uma única chave, digamosa e o resto das teclas dizb,c existem apenas na ...

scala apache-spark

3 a resposta

Como calcular o melhor numberOfPartitions para coalescer?

Então, eu entendo que em geral deve-se usarcoalesce() quando: o número de partições diminui devido a umafilter ou alguma outra operação que possa resultar na redução do conjunto de dados original (RDD, DF).coalesce() é útil para executar ...

Página 1 do 12

12 3 4 5

Resultados da pesquisa a pedido "rdd"

Como ler da hbase usando o spark

Como forçar o Spark a avaliar as operações do DataFrame em linha

Particionar RDD em tuplas de comprimento n

Tags populares

Igualdade de DataFrame no Apache Spark

Preguiçoso foreach em um Spark RDD

Como posso obter uma posição de elemento no RDD do Spark?

Como nivelar listas aninhadas no PySpark?

Spark: espaço insuficiente para armazenar em cache o vermelho no contêiner enquanto ainda resta muita memória total de armazenamento

O spark mantém todos os elementos de um RDD [K, V] para uma chave específica em uma única partição após “groupByKey”, mesmo que os dados de uma chave sejam muito grandes?

Como calcular o melhor numberOfPartitions para coalescer?

Você é muito ativo! É ótimo!

Resultados da pesquisa a pedido "rdd"

Tags populares