Resultados da pesquisa a pedido "apache-spark"

4 a resposta

Como calcular a soma acumulada usando sqlContext

Eu sei que podemos usarFunção de janela no pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] para calcular a soma acumulada. Mas Window é suportado apenas no HiveContext e não no SQLContext. Preciso ...

1 a resposta

Como nivelar listas aninhadas no PySpark?

Eu tenho uma estrutura RDD como: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]]e eu quero que ele se torne: rdd = [1,2,3,4,5,6,7,8,9,10]Como escrevo um mapa ou reduzo a função para fazê-lo funcionar?

3 a resposta

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id já está definido

Estou usando o spark 1.6 e deparo com o problema acima quando executo o seguinte código: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import ...

1 a resposta

Filtrando RDD Com base na condição e extraindo dados correspondentes no Spark python

Eu tenho os dados como, cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0IDs de Cl_id: 10004, 20005 Filtrar por 10004 10004, 77173296 ,390.0 ...

2 a resposta

Partição de DataFrame Por um único arquivo Parquet (por partição)

Gostaria de reparar / unir meus dados para que sejam salvos em um arquivo Parquet por partição. Também gostaria de usar a partição Spark SQL API. Então eu poderia fazer isso assim: df.coalesce(1).write.partitionBy("entity", "year", "month", ...

4 a resposta

O Spark ignora SPARK_WORKER_MEMORY?

Estou usando o modo de cluster autônomo, 1.5.2. Mesmo que eu esteja definindoSPARK_WORKER_MEMORY nospark-env.sh, parece que essa configuração é ignorada. Não consigo encontrar nenhuma indicação nos scripts embin/sbin este-Xms/-Xmx estão ...

3 a resposta

Pyspark DataFrame UDF na coluna de texto

Estou tentando fazer algum texto de PNL limpar algumas colunas Unicode em um PySpark DataFrame. Eu tentei no Spark 1.3, 1.5 e 1.6 e parece que não consigo fazer as coisas funcionarem pela minha vida. Eu também tentei usar o Python 2.7 e o Python ...

1 a resposta

Spark: lide com comandos intensivos em desempenho, como collect (), groupByKey (), reduzemByKey ()

Eu sei que algumas ações do Spark, comocollect() causar problemas de desempenho. Foi citado emdocumentação [http://spark.apache.org/docs/latest/programming-guide.html#transformations] Para imprimir todos os elementos no driver, pode-se usar ...

1 a resposta

spark-submit: --jars não funciona

Como estou construindo um sistema de métricas para o trabalho do Spark Streaming, no sistema, as métricas são coletadas em cada executor; portanto, uma fonte de métricas (uma classe usada para coletar métricas) precisa ser inicializada em cada ...

3 a resposta

Como passar dados do Kafka para o Spark Streaming?

Estou tentando passar dados de kafka para desencadear streaming. Isto é o que eu fiz até agora: Instalou amboskafka esparkComeçadozookeeper com configuração de propriedades padrãoComeçadokafka server com configuração de propriedades ...