Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Aplicar função a cada linha do Spark DataFrame

Estou no Spark 1.3. Gostaria de aplicar uma função a cada linha de um quadro de dados. Esta função hashes cada coluna da linha e retorna uma lista dos hashes. dataframe.map(row => row.toSeq.map(col => col.hashCode))Eu recebo ...

2 a resposta

Transformação no estilo pandas de dados agrupados no PySpark DataFrame

Se tivermos um quadro de dados do Pandas que consiste em uma coluna de categorias e uma coluna de valores, podemos remover a média em cada categoria, fazendo o seguinte: df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda g: ...

2 a resposta

Como calcular a mediana no spark sqlContext para a coluna do tipo de dados double

Eu dei a tabela de amostra. Desejo obter a mediana da coluna "valor" para cada coluna "origem" do grupo. Onde a coluna de origem é de String DataType, a coluna de valor é de double DataType scala> sqlContext.sql("SELECT * from tTab order by ...

2 a resposta

Como converter uma coluna WrappedArray no spark dataframe para Strings?

Estou tentando converter uma coluna que contém Array [String] para String, mas sempre recebo esse erro org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 78.0 failed 4 times, most recent failure: Lost task 0.3 in ...

1 a resposta

Por que meu Spark é mais lento que o Python puro? Comparação de desempenho

Acenda o novato aqui. Tentei fazer alguma ação dos pandas no meu quadro de dados usando o Spark e, surpreendentemente, é mais lento que o Python puro (ou seja, usando o pacote pandas no Python). Aqui está o que eu fiz: 1) No ...

2 a resposta

Como aplicar uma função a uma coluna de um Spark DataFrame?

Vamos supor que temos um Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFramecom o seguinte esquema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = true) ...

4 a resposta

Tabela de quadros de dados Spark do UPSERT para o Postgres

Estou usando o Apache Spark DataFrames para unir duas fontes de dados e obter o resultado como outro DataFrame. Eu quero gravar o resultado em outra tabela do Postgres. Eu vejo esta opção: myDataFrame.write.jdbc(url, table, ...

4 a resposta

Como calcular a soma acumulada usando sqlContext

Eu sei que podemos usarFunção de janela no pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] para calcular a soma acumulada. Mas Window é suportado apenas no HiveContext e não no SQLContext. Preciso ...

3 a resposta

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id já está definido

Estou usando o spark 1.6 e deparo com o problema acima quando executo o seguinte código: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import ...

2 a resposta

Partição de DataFrame Por um único arquivo Parquet (por partição)

Gostaria de reparar / unir meus dados para que sejam salvos em um arquivo Parquet por partição. Também gostaria de usar a partição Spark SQL API. Então eu poderia fazer isso assim: df.coalesce(1).write.partitionBy("entity", "year", "month", ...