Resultados da pesquisa a pedido "rdd"

2 a resposta

pyspark - Agrupando e calculando dados

Eu tenho o seguinte arquivo ...

0 a resposta

A operação de RDD collect () está falhando com o erro "Nenhum módulo chamado pyspark"

Estou tentando executar a operação de coleta abaixo no RDD, criada a partir do Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aqui estão algumas observações de obj_filter, obj_filter.show ...

2 a resposta

passando o valor de RDD para outro RDD como variável - Spark #Pyspark [duplicado]

Esta pergunta já tem uma resposta aqui: Como obter um valor do objeto Row no Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 respostasAtualmente, estou explorando como chamar grandes arquivos ...

3 a resposta

Apache Spark: map vs mapPartitions?

Qual é a diferença entre umRDD's [https://spark.apache.org/docs/latest/api/scala/#org.apache.spark.rdd.RDD] map emapPartitions método? E fazflatMap Comportar-se comomap ou comomapPartitions? Obrigado. (editar) ou seja, qual é a diferença ...

3 a resposta

Como classificar um RDD no Scala Spark?

Lendo o método Spark sortByKey: sortByKey([ascending], [numTasks]) When called on a dataset of (K, V) pairs where K implements Ordered, returns a dataset of (K, V) pairs sorted by keys in ascending or descending order, as specified in the ...

4 a resposta

Como seleciono um intervalo de elementos no Spark RDD?

Gostaria de selecionar uma gama de elementos em um Spark RDD. Por exemplo, tenho um RDD com cem elementos e preciso selecionar elementos de 60 a 80. Como faço isso? Vejo que o RDD possui um método take (i: int), que retorna os primeiros ...

4 a resposta

Como ler da hbase usando o spark

O código abaixo lerá a partir do hbase, depois o converterá em estrutura json e o converterá em schemaRDD, mas o problema é que eu souusing List para armazenar a string json e passar para javaRDD, para dados de cerca de 100 GB, o mestre será ...

2 a resposta

Spark - scala: misturar RDD / dividir RDD em duas partes aleatórias aleatoriamente

Como posso pegar uma matriz de centelha de rdd e dividi-la em dois rdds aleatoriamente para que cada rdd inclua parte dos dados (digamos 97% e 3%). Pensei em embaralhar a lista e depoisshuffledList.take((0.97*rddList.count).toInt) Mas como ...

2 a resposta

Como o DAG funciona nos bastidores do RDD?

oDocumento de pesquisa Spark [http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf]prescreveu um novo modelo de programação distribuída sobre o Hadoop MapReduce clássico, reivindicando a simplificação e o grande aumento de desempenho em ...

2 a resposta

Como posso obter uma posição de elemento no RDD do Spark?

Eu sou novo no Apache Spark e sei que a estrutura de dados principal é RDD. Agora estou escrevendo alguns aplicativos que requerem informações posicionais de elementos. Por exemplo, depois de converter um ArrayList em um RDD (Java), para cada ...