Resultados da pesquisa a pedido "rdd"
PySpark - Sobreposição de tempo para objeto no RDD
Meu objetivo é agrupar objetos com base na sobreposição de tempo. Cada objeto no meurdd contém umstart_time eend_time. Provavelmente, estou lidando com isso de maneira ineficiente, mas o que estou planejando fazer é atribuir um ID de ...
Igualdade de DataFrame no Apache Spark
Presumirdf1 edf2 são doisDataFrames no Apache Spark, calculado usando dois mecanismos diferentes, por exemplo, Spark SQL versus a API Scala / Java / Python. Existe uma maneira idiomática de determinar se os dois quadros de dados são equivalentes ...
O Spark especifica várias condições de coluna para ingresso no quadro de dados
Como fornecer mais condições de coluna ao ingressar em dois quadros de dados. Por exemplo, eu quero executar o seguinte: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ...
Como encontrar medianas e quantis usando o Spark
Como posso encontrar a mediana de umRDD de números inteiros usando um método distribuído, IPython e Spark? oRDD é de aproximadamente 700.000 elementos e, portanto, muito grande para coletar e encontrar a mediana. Esta pergunta é semelhante a ...
Uma lista como chave para o reduzaByKey do PySpark
Eu estou tentando chamar a função reduzirByKey do pyspark nos dados do formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que o pyspark não aceitará uma matriz como a chave na chave normal, redução de valor simplesmente aplicando ...
Como posso associar com eficiência um grande número a um muito grande no spark?
Eu tenho dois RDDs. Um RDD tem entre 5 a 10 milhões de entradas e o outro RDD entre 500 a 750 milhões de entradas. Em algum momento, eu tenho que unir esses dois rdds usando uma chave comum. val rddA = someData.rdd.map { x => (x.key, x); } // ...
Preguiçoso foreach em um Spark RDD
Eu tenho um grande RDD de Strings (obtido através de uma união de váriossc.textFile(...)). Agora, quero procurar uma determinada string nesse RDD e quero que a pesquisa pare quando uma correspondência "boa o suficiente" for encontrada. Eu ...
Não é possível declarar acumulador do tipo String
Estou tentando definir uma variável acumuladora do tipo String no shell Scala (driver), mas continuo recebendo o seguinte erro: - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for parameter param: ...
Explicação do método de dobra do spark RDD
Estou executando o Spark-1.4.0 pré-criado para o Hadoop-2.4 (no modo local) para calcular a soma dos quadrados de um DoubleRDD. Meu código Scala parece sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)E deu um ...
Como imprimir variável de acumulador de dentro da tarefa (parece "funcionar" sem chamar o método de valor)?
Eu sei que as variáveis do acumulador são 'somente gravação' do ponto de vista das tarefas, quando estão em execução nos nós do trabalhador. Eu estava testando isso e percebi que sou capaz de imprimir o valor do acumulador na tarefa. Aqui estou ...