Resultados da pesquisa a pedido "rdd"

2 a resposta

Como posso obter uma posição de elemento no RDD do Spark?

Eu sou novo no Apache Spark e sei que a estrutura de dados principal é RDD. Agora estou escrevendo alguns aplicativos que requerem informações posicionais de elementos. Por exemplo, depois de converter um ArrayList em um RDD (Java), para cada ...

2 a resposta

Como o DAG funciona nos bastidores do RDD?

oDocumento de pesquisa Spark [http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf]prescreveu um novo modelo de programação distribuída sobre o Hadoop MapReduce clássico, reivindicando a simplificação e o grande aumento de desempenho em ...

4 a resposta

Como ler da hbase usando o spark

O código abaixo lerá a partir do hbase, depois o converterá em estrutura json e o converterá em schemaRDD, mas o problema é que eu souusing List para armazenar a string json e passar para javaRDD, para dados de cerca de 100 GB, o mestre será ...

2 a resposta

Spark - scala: misturar RDD / dividir RDD em duas partes aleatórias aleatoriamente

Como posso pegar uma matriz de centelha de rdd e dividi-la em dois rdds aleatoriamente para que cada rdd inclua parte dos dados (digamos 97% e 3%). Pensei em embaralhar a lista e depoisshuffledList.take((0.97*rddList.count).toInt) Mas como ...

4 a resposta

Como seleciono um intervalo de elementos no Spark RDD?

Gostaria de selecionar uma gama de elementos em um Spark RDD. Por exemplo, tenho um RDD com cem elementos e preciso selecionar elementos de 60 a 80. Como faço isso? Vejo que o RDD possui um método take (i: int), que retorna os primeiros ...

3 a resposta

Como classificar um RDD no Scala Spark?

Lendo o método Spark sortByKey: sortByKey([ascending], [numTasks]) When called on a dataset of (K, V) pairs where K implements Ordered, returns a dataset of (K, V) pairs sorted by keys in ascending or descending order, as specified in the ...

3 a resposta

Apache Spark: map vs mapPartitions?

Qual é a diferença entre umRDD's [https://spark.apache.org/docs/latest/api/scala/#org.apache.spark.rdd.RDD] map emapPartitions método? E fazflatMap Comportar-se comomap ou comomapPartitions? Obrigado. (editar) ou seja, qual é a diferença ...