Resultados da pesquisa a pedido "rdd"

1 a resposta

PySpark - Sobreposição de tempo para objeto no RDD

Meu objetivo é agrupar objetos com base na sobreposição de tempo. Cada objeto no meurdd contém umstart_time eend_time. Provavelmente, estou lidando com isso de maneira ineficiente, mas o que estou planejando fazer é atribuir um ID de ...

5 a resposta

Igualdade de DataFrame no Apache Spark

Presumirdf1 edf2 são doisDataFrames no Apache Spark, calculado usando dois mecanismos diferentes, por exemplo, Spark SQL versus a API Scala / Java / Python. Existe uma maneira idiomática de determinar se os dois quadros de dados são equivalentes ...

7 a resposta

O Spark especifica várias condições de coluna para ingresso no quadro de dados

Como fornecer mais condições de coluna ao ingressar em dois quadros de dados. Por exemplo, eu quero executar o seguinte: val Lead_all = Leads.join(Utm_Master, Leaddetails.columns("LeadSource","Utm_Source","Utm_Medium","Utm_Campaign") ...

4 a resposta

Como encontrar medianas e quantis usando o Spark

Como posso encontrar a mediana de umRDD de números inteiros usando um método distribuído, IPython e Spark? oRDD é de aproximadamente 700.000 elementos e, portanto, muito grande para coletar e encontrar a mediana. Esta pergunta é semelhante a ...

1 a resposta

Uma lista como chave para o reduzaByKey do PySpark

Eu estou tentando chamar a função reduzirByKey do pyspark nos dados do formato(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Parece que o pyspark não aceitará uma matriz como a chave na chave normal, redução de valor simplesmente aplicando ...

1 a resposta

Como posso associar com eficiência um grande número a um muito grande no spark?

Eu tenho dois RDDs. Um RDD tem entre 5 a 10 milhões de entradas e o outro RDD entre 500 a 750 milhões de entradas. Em algum momento, eu tenho que unir esses dois rdds usando uma chave comum. val rddA = someData.rdd.map { x => (x.key, x); } // ...

2 a resposta

Preguiçoso foreach em um Spark RDD

Eu tenho um grande RDD de Strings (obtido através de uma união de váriossc.textFile(...)). Agora, quero procurar uma determinada string nesse RDD e quero que a pesquisa pare quando uma correspondência "boa o suficiente" for encontrada. Eu ...

1 a resposta

Não é possível declarar acumulador do tipo String

Estou tentando definir uma variável acumuladora do tipo String no shell Scala (driver), mas continuo recebendo o seguinte erro: - scala> val myacc = sc.accumulator("Test") <console>:21: error: could not find implicit value for parameter param: ...

1 a resposta

Explicação do método de dobra do spark RDD

Estou executando o Spark-1.4.0 pré-criado para o Hadoop-2.4 (no modo local) para calcular a soma dos quadrados de um DoubleRDD. Meu código Scala parece sc.parallelize(Array(2., 3.)).fold(0.0)((p, v) => p+v*v)E deu um ...

1 a resposta

Como imprimir variável de acumulador de dentro da tarefa (parece "funcionar" sem chamar o método de valor)?

Eu sei que as variáveis do acumulador são 'somente gravação' do ponto de vista das tarefas, quando estão em execução nos nós do trabalhador. Eu estava testando isso e percebi que sou capaz de imprimir o valor do acumulador na tarefa. Aqui estou ...