Resultados da pesquisa a pedido "apache-spark-sql"
Coluna GroupBy e linhas de filtro com valor máximo no Pyspark
Estou quase certo de que isso já foi solicitado antes, masuma pesquisa através do ...
subtrair duas colunas com null no spark dataframe
Eu sou novo no spark, tenho dataframe df: +----------+------------+-----------+ | Column1 | Column2 | Sub | +----------+------------+-----------+ | 1 | 2 | 1 | +----------+------------+-----------+ | 4 | null | null ...
Como adicionar várias colunas usando UDF?
Pergunta, questão Desejo adicionar os valores de retorno de um UDF a um quadro de dados existente em colunas separadas. Como faço para conseguir isso de uma maneira engenhosa? Aqui está um exemplo do que tenho até agora. from ...
Como criar bons exemplos reproduzíveis do Apache Spark
Passei bastante tempo lendo algumas perguntas com opyspark [/questions/tagged/pyspark]espark-dataframe [/questions/tagged/spark-dataframe] tags e, muitas vezes, acho que os pôsteres não fornecem informações suficientes para entender realmente a ...
Qual é a diferença entre SparkSession.sql e Dataset.sqlContext.sql?
Tenho os seguintes trechos do código e me pergunto qual é a diferença entre esses dois e qual deles devo usar? Estou usando o spark 2.2. Dataset<Row> df = sparkSession.readStream() .format("kafka") .load(); df.createOrReplaceTempView("table"); ...
O Apache Spark subtrai dias da coluna timestamp
Estou usando o Spark Dataset e estou com problemas para subtrair dias de uma coluna de carimbo de data / hora. Gostaria de subtrair os dias da coluna Timestamp e obter uma nova coluna com o formato completo de data e hora. Exemplo: 2017-09-22 ...
Como explodir uma coluna separada por espaço?
Eu tenho um exemplo de quadro de dados no Spark Scala que contém uma coluna e muitas outras colunas com mais de 50 e precisa explodir o ID: dados de exemplo: id name address 234 435 567 auh aus 345 123 muji ukdados de saída: id name address ...
Spark 2.2 Scala DataFrame selecione da matriz de strings, capturando erros
Eu sou novo no SparkSQL / Scala e estou lutando com algumas tarefas aparentemente simples. Estou tentando criar algum SQL dinâmico a partir de uma matriz de seqüência de caracteres Scala. Estou tentando redigitar algumas colunas no meu ...
Como adicionar um novo campo à coluna struct?
Eu tenho um dataframe com algo parecido com istodf.printSchema: root |-- ts: timestamp (nullable = true) |-- geoip: struct (nullable = true) | |-- city: string (nullable = true) | |-- continent: string (nullable = true) | |-- location: struct ...
Spark UDAF com ArrayType como bufferSchema problemas de desempenho
Estou trabalhando em um UDAF que retorna uma matriz de elementos. A entrada para cada atualização é uma tupla de índice e valor. O que o UDAF faz é somar todos os valores no mesmo índice. Exemplo: Para entrada (índice, valor): (2,1), (3,1), ...