Resultados da pesquisa a pedido "rdd"
pyspark - Agrupando e calculando dados
Eu tenho o seguinte arquivo ...
A operação de RDD collect () está falhando com o erro "Nenhum módulo chamado pyspark"
Estou tentando executar a operação de coleta abaixo no RDD, criada a partir do Pyspark Dataframe (obj_filter): obj_filter.rdd.map(lambda l: (l[0],l[1],l[2])).collect()Aqui estão algumas observações de obj_filter, obj_filter.show ...
passando o valor de RDD para outro RDD como variável - Spark #Pyspark [duplicado]
Esta pergunta já tem uma resposta aqui: Como obter um valor do objeto Row no Spark Dataframe? [/questions/37999657/how-to-get-a-value-from-the-row-object-in-spark-dataframe] 3 respostasAtualmente, estou explorando como chamar grandes arquivos ...
Apache Spark: map vs mapPartitions?
Qual é a diferença entre umRDD's [https://spark.apache.org/docs/latest/api/scala/#org.apache.spark.rdd.RDD] map emapPartitions método? E fazflatMap Comportar-se comomap ou comomapPartitions? Obrigado. (editar) ou seja, qual é a diferença ...
Como classificar um RDD no Scala Spark?
Lendo o método Spark sortByKey: sortByKey([ascending], [numTasks]) When called on a dataset of (K, V) pairs where K implements Ordered, returns a dataset of (K, V) pairs sorted by keys in ascending or descending order, as specified in the ...
Como seleciono um intervalo de elementos no Spark RDD?
Gostaria de selecionar uma gama de elementos em um Spark RDD. Por exemplo, tenho um RDD com cem elementos e preciso selecionar elementos de 60 a 80. Como faço isso? Vejo que o RDD possui um método take (i: int), que retorna os primeiros ...
Como ler da hbase usando o spark
O código abaixo lerá a partir do hbase, depois o converterá em estrutura json e o converterá em schemaRDD, mas o problema é que eu souusing List para armazenar a string json e passar para javaRDD, para dados de cerca de 100 GB, o mestre será ...
Spark - scala: misturar RDD / dividir RDD em duas partes aleatórias aleatoriamente
Como posso pegar uma matriz de centelha de rdd e dividi-la em dois rdds aleatoriamente para que cada rdd inclua parte dos dados (digamos 97% e 3%). Pensei em embaralhar a lista e depoisshuffledList.take((0.97*rddList.count).toInt) Mas como ...
Como o DAG funciona nos bastidores do RDD?
oDocumento de pesquisa Spark [http://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf]prescreveu um novo modelo de programação distribuída sobre o Hadoop MapReduce clássico, reivindicando a simplificação e o grande aumento de desempenho em ...
Como posso obter uma posição de elemento no RDD do Spark?
Eu sou novo no Apache Spark e sei que a estrutura de dados principal é RDD. Agora estou escrevendo alguns aplicativos que requerem informações posicionais de elementos. Por exemplo, depois de converter um ArrayList em um RDD (Java), para cada ...