Resultados da pesquisa a pedido "apache-spark-sql"
Aplicando a Função à Coluna Spark Dataframe
Vindo de R, estou acostumado a fazer operações facilmente em colunas. Existe alguma maneira fácil de executar essa função que eu escrevi no scala def round_tenths_place( un_rounded:Double ) : Double = { val rounded ...
spark.ml StringIndexer lança 'rótulo invisível' em fit ()
Estou preparando um brinquedospark.ml exemplo.Spark version 1.6.0, correndo em cima deOracle JDK version 1.8.0_65, pyspark, notebook ipython. Primeiro, dificilmente tem algo a ver comSpark, ML, StringIndexer: manipulação de etiquetas ...
Encontre a linha máxima por grupo no Spark DataFrame
Estou tentando usar quadros de dados do Spark em vez de RDDs, pois eles parecem ser mais de alto nível que os RDDs e tendem a produzir código mais legível. Em um cluster do Google Dataproc de 14 nós, tenho cerca de 6 milhões de nomes que são ...
A transmissão não ocorre ao ingressar nos quadros de dados no Spark 1.6
Abaixo está o código de exemplo que estou executando. Quando esse trabalho de faísca é executado, as associações ao Dataframe acontecem usando sortmergejoin em vez de broadcastjoin. def joinedDf (sqlContext: SQLContext, txnTable: DataFrame, ...
Como evitar colunas duplicadas após ingressar?
Eu tenho dois quadros de dados com as seguintes colunas: df1.columns // Array(ts, id, X1, X2)e df2.columns // Array(ts, id, Y1, Y2)Depois que eu faço val df_combined = df1.join(df2, Seq(ts,id))Termino com as seguintes colunas:Array(ts, id, X1, ...
Compartilhe o SparkContext entre Java e R Apps sob o mesmo mestre
Então aqui está a configuração. Atualmente, tenho dois aplicativos Spark inicializados. Eu preciso passar dados entre eles (de preferência através de sparkcontext / sqlcontext compartilhado para que eu possa consultar uma tabela temporária). ...
Apache Spark - Atribua o resultado do UDF a várias colunas do quadro de dados
Estou usando o pyspark, carregando um arquivo csv grande em um dataframe com spark-csv e, como etapa de pré-processamento, preciso aplicar uma variedade de operações aos dados disponíveis em uma das colunas (que contém uma string json) . Isso ...
Como passar um valor constante para o Python UDF?
Eu estava pensando se era possível criar umUDF que recebe dois argumentos porColumn e outra variável (Object,Dictionary, ou qualquer outro tipo), faça algumas operações e retorne o resultado. Na verdade, tentei fazer isso, mas tive uma exceção. ...
tabelas de cache no apache spark sql
Do oficial Sparkdocumento [http://spark.apache.org/docs/latest/sql-programming-guide.html#caching-data-in-memory] , diz: O Spark SQL pode armazenar em cache tabelas usando um formato colunar na memória chamando sqlContext.cacheTable ...
pyspark: Converte DataFrame em RDD [string]
Eu gostaria de converterpyspark.sql.dataframe.DataFrame parapyspark.rdd.RDD[String] Eu converti um DataFramedf para RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDo novo RDDdata contémRow first = data.first() type(first) ## ...