Resultados da pesquisa a pedido "apache-spark-sql"
Aplicar função a cada linha do Spark DataFrame
Estou no Spark 1.3. Gostaria de aplicar uma função a cada linha de um quadro de dados. Esta função hashes cada coluna da linha e retorna uma lista dos hashes. dataframe.map(row => row.toSeq.map(col => col.hashCode))Eu recebo ...
Transformação no estilo pandas de dados agrupados no PySpark DataFrame
Se tivermos um quadro de dados do Pandas que consiste em uma coluna de categorias e uma coluna de valores, podemos remover a média em cada categoria, fazendo o seguinte: df["DemeanedValues"] = df.groupby("Category")["Values"].transform(lambda g: ...
Como calcular a mediana no spark sqlContext para a coluna do tipo de dados double
Eu dei a tabela de amostra. Desejo obter a mediana da coluna "valor" para cada coluna "origem" do grupo. Onde a coluna de origem é de String DataType, a coluna de valor é de double DataType scala> sqlContext.sql("SELECT * from tTab order by ...
Como converter uma coluna WrappedArray no spark dataframe para Strings?
Estou tentando converter uma coluna que contém Array [String] para String, mas sempre recebo esse erro org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 78.0 failed 4 times, most recent failure: Lost task 0.3 in ...
Por que meu Spark é mais lento que o Python puro? Comparação de desempenho
Acenda o novato aqui. Tentei fazer alguma ação dos pandas no meu quadro de dados usando o Spark e, surpreendentemente, é mais lento que o Python puro (ou seja, usando o pacote pandas no Python). Aqui está o que eu fiz: 1) No ...
Como aplicar uma função a uma coluna de um Spark DataFrame?
Vamos supor que temos um Spark DataFrame df.getClass Class[_ <: org.apache.spark.sql.DataFrame] = class org.apache.spark.sql.DataFramecom o seguinte esquema df.printSchema root |-- rawFV: string (nullable = true) |-- tk: array (nullable = true) ...
Tabela de quadros de dados Spark do UPSERT para o Postgres
Estou usando o Apache Spark DataFrames para unir duas fontes de dados e obter o resultado como outro DataFrame. Eu quero gravar o resultado em outra tabela do Postgres. Eu vejo esta opção: myDataFrame.write.jdbc(url, table, ...
Como calcular a soma acumulada usando sqlContext
Eu sei que podemos usarFunção de janela no pyspark [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] para calcular a soma acumulada. Mas Window é suportado apenas no HiveContext e não no SQLContext. Preciso ...
Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id já está definido
Estou usando o spark 1.6 e deparo com o problema acima quando executo o seguinte código: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import ...
Partição de DataFrame Por um único arquivo Parquet (por partição)
Gostaria de reparar / unir meus dados para que sejam salvos em um arquivo Parquet por partição. Também gostaria de usar a partição Spark SQL API. Então eu poderia fazer isso assim: df.coalesce(1).write.partitionBy("entity", "year", "month", ...