Resultados da pesquisa a pedido "apache-spark"
Como calcular a soma acumulada usando sqlContext
Eu sei que podemos usarFunção de janela no pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] para calcular a soma acumulada. Mas Window é suportado apenas no HiveContext e não no SQLContext. Preciso ...
Como nivelar listas aninhadas no PySpark?
Eu tenho uma estrutura RDD como: rdd = [[[1],[2],[3]], [[4],[5]], [[6]], [[7],[8],[9],[10]]]e eu quero que ele se torne: rdd = [1,2,3,4,5,6,7,8,9,10]Como escrevo um mapa ou reduzo a função para fazê-lo funcionar?
Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id já está definido
Estou usando o spark 1.6 e deparo com o problema acima quando executo o seguinte código: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import ...
Filtrando RDD Com base na condição e extraindo dados correspondentes no Spark python
Eu tenho os dados como, cl_id cn_id cn_value 10004, 77173296 ,390.0 10004, 77173299 ,376.0 10004, 77173300 ,0.0 20005, 77173296 ,0.0 20005, 77173299 ,6.0 2005, 77438800 ,2.0IDs de Cl_id: 10004, 20005 Filtrar por 10004 10004, 77173296 ,390.0 ...
Partição de DataFrame Por um único arquivo Parquet (por partição)
Gostaria de reparar / unir meus dados para que sejam salvos em um arquivo Parquet por partição. Também gostaria de usar a partição Spark SQL API. Então eu poderia fazer isso assim: df.coalesce(1).write.partitionBy("entity", "year", "month", ...
O Spark ignora SPARK_WORKER_MEMORY?
Estou usando o modo de cluster autônomo, 1.5.2. Mesmo que eu esteja definindoSPARK_WORKER_MEMORY nospark-env.sh, parece que essa configuração é ignorada. Não consigo encontrar nenhuma indicação nos scripts embin/sbin este-Xms/-Xmx estão ...
Pyspark DataFrame UDF na coluna de texto
Estou tentando fazer algum texto de PNL limpar algumas colunas Unicode em um PySpark DataFrame. Eu tentei no Spark 1.3, 1.5 e 1.6 e parece que não consigo fazer as coisas funcionarem pela minha vida. Eu também tentei usar o Python 2.7 e o Python ...
Spark: lide com comandos intensivos em desempenho, como collect (), groupByKey (), reduzemByKey ()
Eu sei que algumas ações do Spark, comocollect() causar problemas de desempenho. Foi citado emdocumentação [http://spark.apache.org/docs/latest/programming-guide.html#transformations] Para imprimir todos os elementos no driver, pode-se usar ...
spark-submit: --jars não funciona
Como estou construindo um sistema de métricas para o trabalho do Spark Streaming, no sistema, as métricas são coletadas em cada executor; portanto, uma fonte de métricas (uma classe usada para coletar métricas) precisa ser inicializada em cada ...
Como passar dados do Kafka para o Spark Streaming?
Estou tentando passar dados de kafka para desencadear streaming. Isto é o que eu fiz até agora: Instalou amboskafka esparkComeçadozookeeper com configuração de propriedades padrãoComeçadokafka server com configuração de propriedades ...