Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Aplicando a Função à Coluna Spark Dataframe

Vindo de R, estou acostumado a fazer operações facilmente em colunas. Existe alguma maneira fácil de executar essa função que eu escrevi no scala def round_tenths_place( un_rounded:Double ) : Double = { val rounded ...

2 a resposta

spark.ml StringIndexer lança 'rótulo invisível' em fit ()

Estou preparando um brinquedospark.ml exemplo.Spark version 1.6.0, correndo em cima deOracle JDK version 1.8.0_65, pyspark, notebook ipython. Primeiro, dificilmente tem algo a ver comSpark, ML, StringIndexer: manipulação de etiquetas ...

2 a resposta

Encontre a linha máxima por grupo no Spark DataFrame

Estou tentando usar quadros de dados do Spark em vez de RDDs, pois eles parecem ser mais de alto nível que os RDDs e tendem a produzir código mais legível. Em um cluster do Google Dataproc de 14 nós, tenho cerca de 6 milhões de nomes que são ...

1 a resposta

A transmissão não ocorre ao ingressar nos quadros de dados no Spark 1.6

Abaixo está o código de exemplo que estou executando. Quando esse trabalho de faísca é executado, as associações ao Dataframe acontecem usando sortmergejoin em vez de broadcastjoin. def joinedDf (sqlContext: SQLContext, txnTable: DataFrame, ...

5 a resposta

Como evitar colunas duplicadas após ingressar?

Eu tenho dois quadros de dados com as seguintes colunas: df1.columns // Array(ts, id, X1, X2)e df2.columns // Array(ts, id, Y1, Y2)Depois que eu faço val df_combined = df1.join(df2, Seq(ts,id))Termino com as seguintes colunas:Array(ts, id, X1, ...

1 a resposta

Compartilhe o SparkContext entre Java e R Apps sob o mesmo mestre

Então aqui está a configuração. Atualmente, tenho dois aplicativos Spark inicializados. Eu preciso passar dados entre eles (de preferência através de sparkcontext / sqlcontext compartilhado para que eu possa consultar uma tabela temporária). ...

1 a resposta

Apache Spark - Atribua o resultado do UDF a várias colunas do quadro de dados

Estou usando o pyspark, carregando um arquivo csv grande em um dataframe com spark-csv e, como etapa de pré-processamento, preciso aplicar uma variedade de operações aos dados disponíveis em uma das colunas (que contém uma string json) . Isso ...

1 a resposta

Como passar um valor constante para o Python UDF?

Eu estava pensando se era possível criar umUDF que recebe dois argumentos porColumn e outra variável (Object,Dictionary, ou qualquer outro tipo), faça algumas operações e retorne o resultado. Na verdade, tentei fazer isso, mas tive uma exceção. ...

1 a resposta

tabelas de cache no apache spark sql

Do oficial Sparkdocumento [http://spark.apache.org/docs/latest/sql-programming-guide.html#caching-data-in-memory] , diz: O Spark SQL pode armazenar em cache tabelas usando um formato colunar na memória chamando sqlContext.cacheTable ...

1 a resposta

pyspark: Converte DataFrame em RDD [string]

Eu gostaria de converterpyspark.sql.dataframe.DataFrame parapyspark.rdd.RDD[String] Eu converti um DataFramedf para RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDo novo RDDdata contémRow first = data.first() type(first) ## ...