Resultados da pesquisa a pedido "rdd"
Número de partições no RDD e desempenho no Spark
No Pyspark, posso criar um RDD a partir de uma lista e decidir quantas partições ter: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)Como o número de partições que eu decido particionar meu RDD influencia o desempenho? E como isso ...
Apache Spark: map vs mapPartitions?
Qual é a diferença entre umRDD's [https://spark.apache.org/docs/latest/api/scala/#org.apache.spark.rdd.RDD] map emapPartitions método? E fazflatMap Comportar-se comomap ou comomapPartitions? Obrigado. (editar) ou seja, qual é a diferença ...
RDD divide e faz agregação em novos RDDs
Eu tenho um RDD de(String,String,Int). Eu quero reduzi-lo com base nas duas primeiras cadeiasE então, com base na primeira String, quero agrupar o (String, Int) e classificá-losApós a classificação, preciso agrupá-los em pequenos grupos, cada um ...
O Spark especifica várias condições de coluna para ingresso no quadro de dados
Como fornecer mais condições de coluna ao ingressar em dois quadros de dados. Por exemplo, eu quero executar o seguinte: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ...
Multiplicação de matrizes no Apache Spark [fechado]
Estou tentando executar a multiplicação de matrizes usando Apache Spark e Java. Eu tenho 2 perguntas principais: Como criar RDD que pode representar matriz no Apache Spark?Como multiplicar dois desses RDDs?
Como posso salvar um RDD no HDFS e depois lê-lo novamente?
Eu tenho um RDD cujos elementos são do tipo (Long, String). Por alguma razão, quero salvar o RDD inteiro no HDFS e, posteriormente, também ler esse RDD novamente em um programa Spark. É possível fazer isso? E se sim, como?
Spark RDD: Como calcular estatísticas com mais eficiência?
Assumindo a existência de um RDD de tuplas semelhante ao seguinte: (key1, 1) (key3, 9) (key2, 3) (key1, 4) (key1, 5) (key3, 2) (key2, 7) ...Qual é a maneira mais eficiente (e, idealmente, distribuída) de calcular estatísticas correspondentes a ...
O que o Spark recupera os dados de um nó com falha?
Suponha que tenhamos um RDD, que está sendo usado várias vezes. Portanto, para salvar os cálculos repetidamente, persistimos esse RDD usando o método rdd.persist (). Portanto, quando persistimos esse RDD, os nós que computam o RDD armazenam ...
Igualdade de DataFrame no Apache Spark
Presumirdf1 edf2 são doisDataFrames no Apache Spark, calculado usando dois mecanismos diferentes, por exemplo, Spark SQL versus a API Scala / Java / Python. Existe uma maneira idiomática de determinar se os dois quadros de dados são equivalentes ...
Spark: Diferença entre gravação aleatória, derramamento aleatório (memória), derramamento aleatório (disco)?
Eu tenho o seguinte trabalho de faísca, tentando manter tudo na memória: val myOutRDD = myInRDD.flatMap { fp => val tuple2List: ListBuffer[(String, myClass)] = ListBuffer() : tuple2List }.persist(StorageLevel.MEMORY_ONLY).reduceByKey { (p1, p2) ...