Resultados da pesquisa a pedido "apache-spark-sql"

2 a resposta

Função da janela Spark SQL com condição complexa

Provavelmente é mais fácil explicar através do exemplo. Suponha que eu tenha um DataFrame de logins de usuário em um site, por exemplo: scala> df.show(5) +----------------+----------+ | user_name|login_date| +----------------+----------+ ...

1 a resposta

Spark Streaming Estruturado usando soquetes, defina SCHEMA, Exibir DATAFRAME no console

Como posso definir um esquema para um streamingDataFrame no PySpark. from pyspark.sql import SparkSession from pyspark.sql.functions import explode from pyspark.sql.functions import split # Import data types from pyspark.sql.types import * spark ...

1 a resposta

Esquema para o tipo Qualquer não é suportado

Estou tentando criar um UDF spark para extrair um mapa de pares (chave, valor) de uma classe de caso definida pelo usuário. A função scala parece funcionar bem, mas quando tento convertê-la em uma UDF no spark2.0, estou executando o erro ...

1 a resposta

Como definir o UDAF nas janelas de horário do evento no PySpark 2.1.0

[/imgs/NQvm9.png] Estou escrevendo um aplicativo Python que desliza uma janela sobre uma sequência de valores, cada um com um carimbo de data / hora. Desejo aplicar uma função aos valores na janela deslizante para calcular uma pontuação dos N ...

1 a resposta

Como encontrar os primeiros valores não nulos em grupos? (classificação secundária usando a API do conjunto de dados)

Estou trabalhando em um conjunto de dados que representa um fluxo de eventos (como disparados como eventos de rastreamento de um site). Todos os eventos têm um carimbo de data / hora. Um caso de uso que geralmente temos é tentar encontrar o 1º ...

1 a resposta

Como listar todas as tabelas no banco de dados usando o Spark SQL?

Eu tenho uma conexão SparkSQL com um banco de dados externo: from pyspark.sql import SparkSession spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .getOrCreate()Se eu souber o nome de uma tabela, é fácil ...

1 a resposta

Particionando no Spark durante a leitura de RDBMS via JDBC

Estou executando o spark no modo de cluster e lendo dados do RDBMS via JDBC. Conforme Sparkdocs [http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases] , esses parâmetros de particionamento descrevem como ...

1 a resposta

Encontre mediana no spark SQL para várias colunas de tipos de dados duplos

Eu tenho um requisito para encontrar mediana para várias colunas de tipos de dados duplos. Solicitar sugestão para encontrar a abordagem correta. Abaixo está o meu conjunto de dados de amostra com uma coluna. Estou esperando que o valor mediano ...

1 a resposta

Desmembrar no spark-sql / pyspark

Eu tenho uma declaração do problema em mãos na qual desejo desagrupar a tabela no spark-sql / pyspark. Examinei a documentação e pude ver que há suporte apenas para o pivô, mas até agora não há suporte para o não pivô. Existe uma maneira ...

2 a resposta

Como carregar CSVs com registros de data e hora em formato personalizado?

Eu tenho um campo de carimbo de data / hora em um arquivo CSV que eu carrego em um dataframe usando a biblioteca spark CSV. O mesmo trecho de código funciona na minha máquina local com a versão Spark 2.0, mas gera um erro no Azure Hortonworks HDP ...