Resultados da pesquisa a pedido "apache-spark"

2 a resposta

Como consultar o MongoDB via Spark para consultas geoespaciais

Existe alguma maneira de usar o MongoDB com Spark para consultas geoespaciais? Não consigo ver como fazer isso com o Stratio.

1 a resposta

função windowing first_value no pyspark

Estou usando o pyspark 1.5, obtendo meus dados das tabelas do Hive e tentando usar as funções de janelas. De acordo comesta [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] existe uma função analítica ...

2 a resposta

Transformações Spark + Scala, sobrecarga de imutabilidade e consumo de memória

Passei por alguns vídeos no Youtube sobreFaísca [https://www.youtube.com/watch?v=65aV15uDKgA]arquitetura. Embora a avaliação preguiçosa, a resiliência da criação de dados em caso de falhas, bons conceitos de programação funcional sejam razões ...

5 a resposta

Como calcular a soma acumulada usando o Spark

Eu tenho um rdd de (String, Int), que é classificado por chave val data = Array(("c1",6), ("c2",3),("c3",4)) val rdd = sc.parallelize(data).sortByKeyAgora, quero iniciar o valor da primeira chave com zero e as chaves subseqüentes como soma das ...

3 a resposta

Interface do usuário do Spark mostrando 0 núcleos, mesmo ao definir núcleos no aplicativo

Estou tendo um problema estranho com a execução de um aplicativo fora do URL mestre do spark, em que a interface do usuário está relatando um "STATE" de "WAITING" indefinidamente, pois 0 núcleos estão aparecendo na tabela RUNNING APPLICATIONs, ...

3 a resposta

Como criar um transformador personalizado a partir de um UDF?

Eu estava tentando criar e salvar umPipeline [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.Pipeline] com estágios personalizados. Preciso adicionar umcolumn para o meuDataFrame usando umUDF. Portanto, eu queria ...

2 a resposta

usando a instrução preparada várias vezes, avisando Cassandra Querying Reducing Performance

Estou obtendo dados de algum lugar e inserindo-os nocassandra diariamente, então eu preciso recuperar os dados decassandra durante toda a semana e faça algum processamento e insira o resultado novamentecassandra. Eu tenho muitos registros, cada ...

1 a resposta

Resultados inesperados no Spark MapReduce

Eu sou novo no Spark e quero entender como o MapReduce é realizado sob o capô para garantir que eu o use corretamente.Esta postagem [https://stackoverflow.com/a/32520848/5880417]forneceu uma ótima resposta, mas meus resultados parecem não seguir ...

1 a resposta

Aplicando a Função à Coluna Spark Dataframe

Vindo de R, estou acostumado a fazer operações facilmente em colunas. Existe alguma maneira fácil de executar essa função que eu escrevi no scala def round_tenths_place( un_rounded:Double ) : Double = { val rounded ...

2 a resposta

Spark: diferença de semântica entre reduzir e reduzirByKey

Na documentação do Spark, diz que o método RDDsreduce [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD] requer uma função binária associativa e comutativa. No entanto, o ...