Resultados da pesquisa a pedido "apache-spark-sql"

1 a resposta

Como ler registros no formato JSON do Kafka usando o Structured Streaming?

Estou tentando usarabordagem de streaming estruturado [http://spark.apache.org/docs/latest/structured-streaming-programming-guide.html] usando o Spark-Streaming com base na API DataFrame / Dataset para carregar um fluxo de dados do Kafka. Eu ...

1 a resposta

Quadros de dados Scala / Spark: encontre o nome da coluna correspondente ao máximo

No Scala / Spark, com um quadro de dados: val dfIn = sqlContext.createDataFrame(Seq( ("r0", 0, 2, 3), ("r1", 1, 0, 0), ("r2", 0, 2, 2))).toDF("id", "c0", "c1", "c2")Eu gostaria de calcular uma nova colunamaxCol segurando onomeda coluna ...

5 a resposta

Como encontrar a mediana exata para dados agrupados no Spark

Eu tenho um requisito para calcular a mediana exata no conjunto de dados agrupados do tipo de dados Double no Spark usando Scala. É diferente da consulta semelhante:Encontre mediana no spark SQL para várias colunas de tipos de dados duplos ...

3 a resposta

Como maximizar o valor e manter todas as colunas (para o máximo de registros por grupo)? [duplicado]

Esta pergunta já tem uma resposta aqui: Como selecionar a primeira linha de cada grupo? [/questions/33878370/how-to-select-the-first-row-of-each-group] 8 respostasDado o seguinte DataFrame: +----+-----+---+-----+ | uid| k| v|count| ...

3 a resposta

Definindo o esquema do DataFrame para uma tabela com 1500 colunas no Spark

Eu tenho uma tabela com cerca de 1500 colunas no SQL Server. Preciso ler os dados desta tabela, convertê-los no formato de tipo de dados adequado e inserir os registros no banco de dados Oracle. Qual é a melhor maneira de definir o esquema para ...

1 a resposta

Considerações de segurança do Spark SQL

Quais são as considerações de segurança ao aceitar e executar consultas SQL spark arbitrárias? Imagine a seguinte configuração: Dois arquivos em hdfs são registrados como tabelasa_secrets eb_secrets: # must only be accessed by clients with ...

4 a resposta

Obter o número atual de partições de um DataFrame

Existe alguma maneira de obter o número atual de partições de um DataFrame? Verifiquei o javadoc do DataFrame (spark 1.6) e não encontrei um método para isso, ou estou com saudades? (No caso de JavaRDD, existe um método getNumPartitions ().)

2 a resposta

Caso aninhado Spark Dataframe When

Preciso implementar a lógica SQL abaixo no SparkDataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1;Minha entradaDataFrame é como abaixo: val dataset1 = Seq((66, ...

3 a resposta

Como converter o formato personalizado de data e hora em carimbo de data / hora?

Alguma idéia de por que estou obtendo o resultado abaixo? scala> val b = to_timestamp($"DATETIME", "ddMMMYYYY:HH:mm:ss") b: org.apache.spark.sql.Column = to_timestamp(`DATETIME`, 'ddMMMYYYY:HH:mm:ss') scala> sourceRawData.withColumn("ts", ...

2 a resposta

Podemos usar várias sessões de sparks para acessar dois servidores Hive diferentes

Eu tenho um cenário para comparar duas tabelas diferentes de origem e destino de dois servidores de seção remota separados, podemos usar doisSparkSessions algo como eu tentei abaixo: - val spark = SparkSession.builder().master("local") ...