Resultados da pesquisa a pedido "apache-spark-sql"

2 a resposta

Spark SQL - Diferença entre df.repartition e DataFrameWriter partitionBy?

Qual é a diferença entre DataFramerepartition() e DataFrameWriterpartitionBy() métodos? Espero que ambos sejam usados para "particionar dados com base na coluna dataframe"? Ou existe alguma diferença?

1 a resposta

Como implementar o incremento automático no spark SQL (PySpark)

Eu preciso implementar uma coluna de incremento automático na minha tabela sql spark, como eu poderia fazer isso. Por favor, me guie. eu estou usando o pyspark 2.0 Obrigado Kalyan

1 a resposta

Spark / Scala: preencha nan com a última boa observação

Estou usando o spark 2.0.1 e quero preencher os valores nan com o último valor conhecido bom na coluna. A única referência para a faísca que eu pude encontrarSpark / Scala: preenchimento avançado com última ...

3 a resposta

Como fazer junção externa esquerda no spark sql?

Eu estou tentando fazer uma junção externa esquerda no spark (1.6.2) e não funciona. Minha consulta sql é assim: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = p.uuid where t.created_year = 2016 ...

2 a resposta

Como salvar / inserir cada DStream em uma tabela permanente

Estou enfrentando um problema com o "Spark Streaming" sobre a inserção do Dstream de saída em umpermanente Tabela SQL. Gostaria de inserir todos os DStream de saída (provenientes de um único lote que desencadeia processos) em uma tabela ...

2 a resposta

Conjunto de dados Spark 2.0 vs DataFrame

começando com o spark 2.0.1 eu tenho algumas perguntas. Eu li muita documentação, mas até agora não consegui encontrar respostas suficientes: Qual é a diferença entredf.select("foo")df.select($"foo")eu entendi ...

3 a resposta

Como criar o SparkSession com suporte ao Hive (falha com "As classes do Hive não foram encontradas")?

Estou recebendo esse erro ao tentar executar esse código. import org.apache.spark.sql.Dataset; import org.apache.spark.sql.Row; import org.apache.spark.sql.SparkSession; public class App { public static void main(String[] args) throws Exception ...

1 a resposta

Scala: Spark SQL to_date (unix_timestamp) retornando NULL

Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Estou carregando um CSV bruto em um DataFrame. No csv, embora a coluna seja compatível com o formato de data, eles são gravados como 20161025 em vez de 25/10/2016. O parâmetrodate_format ...

2 a resposta

função da janela spark sql lag

Eu estou olhando para a função de slide da janela para um Spark DataFrame no Spark SQL, Scala. Eu tenho um dataframe com colunas Col1, Col1, Col1, data. Col1 Col2 Col3 date volume new_col 201601 100.5 201602 120.6 100.5 201603 450.2 120.6 ...

2 a resposta

Por que as colunas mudam para nulo no Apache Spark SQL?

Porque énullable = true usado após a execução de algumas funções, mesmo que não haja valores de NaN noDataFrame. val myDf = Seq((2,"A"),(2,"B"),(1,"C")) .toDF("foo","bar") .withColumn("foo", 'foo.cast("Int")) myDf.withColumn("foo_2", when($"foo" ...