Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Coluna GroupBy e linhas de filtro com valor máximo no Pyspark

Estou quase certo de que isso já foi solicitado antes, masuma pesquisa através do ...

2 a resposta

subtrair duas colunas com null no spark dataframe

Eu sou novo no spark, tenho dataframe df: +----------+------------+-----------+ | Column1 | Column2 | Sub | +----------+------------+-----------+ | 1 | 2 | 1 | +----------+------------+-----------+ | 4 | null | null ...

3 a resposta

Como adicionar várias colunas usando UDF?

Pergunta, questão Desejo adicionar os valores de retorno de um UDF a um quadro de dados existente em colunas separadas. Como faço para conseguir isso de uma maneira engenhosa? Aqui está um exemplo do que tenho até agora. from ...

4 a resposta

Como criar bons exemplos reproduzíveis do Apache Spark

Passei bastante tempo lendo algumas perguntas com opyspark [/questions/tagged/pyspark]espark-dataframe [/questions/tagged/spark-dataframe] tags e, muitas vezes, acho que os pôsteres não fornecem informações suficientes para entender realmente a ...

1 a resposta

Qual é a diferença entre SparkSession.sql e Dataset.sqlContext.sql?

Tenho os seguintes trechos do código e me pergunto qual é a diferença entre esses dois e qual deles devo usar? Estou usando o spark 2.2. Dataset<Row> df = sparkSession.readStream() .format("kafka") .load(); df.createOrReplaceTempView("table"); ...

1 a resposta

O Apache Spark subtrai dias da coluna timestamp

Estou usando o Spark Dataset e estou com problemas para subtrair dias de uma coluna de carimbo de data / hora. Gostaria de subtrair os dias da coluna Timestamp e obter uma nova coluna com o formato completo de data e hora. Exemplo: 2017-09-22 ...

1 a resposta

Como explodir uma coluna separada por espaço?

Eu tenho um exemplo de quadro de dados no Spark Scala que contém uma coluna e muitas outras colunas com mais de 50 e precisa explodir o ID: dados de exemplo: id name address 234 435 567 auh aus 345 123 muji ukdados de saída: id name address ...

1 a resposta

Spark 2.2 Scala DataFrame selecione da matriz de strings, capturando erros

Eu sou novo no SparkSQL / Scala e estou lutando com algumas tarefas aparentemente simples. Estou tentando criar algum SQL dinâmico a partir de uma matriz de seqüência de caracteres Scala. Estou tentando redigitar algumas colunas no meu ...

2 a resposta

Como adicionar um novo campo à coluna struct?

Eu tenho um dataframe com algo parecido com istodf.printSchema: root |-- ts: timestamp (nullable = true) |-- geoip: struct (nullable = true) | |-- city: string (nullable = true) | |-- continent: string (nullable = true) | |-- location: struct ...

1 a resposta

Spark UDAF com ArrayType como bufferSchema problemas de desempenho

Estou trabalhando em um UDAF que retorna uma matriz de elementos. A entrada para cada atualização é uma tupla de índice e valor. O que o UDAF faz é somar todos os valores no mesmo índice. Exemplo: Para entrada (índice, valor): (2,1), (3,1), ...