Resultados da pesquisa a pedido "window-functions"
Tarefa Spark não serializável com função de janela lag
Notei que, depois de usar uma função Window em um DataFrame, se eu chamar um map () com uma função, o Spark retornará uma exceção "Task not serializable" Este é o meu código: val hc:org.apache.spark.sql.hive.HiveContext = ...
Particionando por várias colunas no Spark SQL
Com as funções de janela do Spark SQL, preciso particionar por várias colunas para executar minhas consultas de dados, da seguinte maneira: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) No momento, não tenho um ...
Como filtrar dados usando funções de janela no spark
Eu tenho os seguintes dados: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 cAgora eu queria filtrar os dados de forma que eu possa remover as linhas 6 e 7. Para um uid específico, eu quero manter ...
Edição complexa de 'lacunas e ilhas'
Eu tenho uma tabela em um banco de dados Postgres como este: person | eventdate | type -------------------------------------- <uuid-1> | 2016-05-14 | 300 <uuid-3> | 2016-05-14 | 300 <uuid-1> | 2016-05-15 | 301 <uuid-1> | 2016-05-16 | 301 ...
Funções da janela Spark requer HiveContext?
Eu estou tentando um exemplo de função de janela na faísca deste ...
Pyspark: função de janela personalizada
Atualmente, estou tentando extrair séries de ocorrências consecutivas em um quadro de dados PySpark e ordená-las / classificá-las conforme mostrado abaixo (por conveniência, solicitei o quadro de dados inicial poruser_id etimestamp): df_ini ...
Sessione uma coluna de números em grupos de 30 assim que um limite for atingido no Teradata
Considere uma coluna que representa "tempo entre eventos": (5, 40, 3, 6, 0, 9, 0, 4, 5, 18, 2, 4, 3, 2) Gostaria de agrupá-los em baldes de 30, mas baldes que são redefinidos. Resultado desejado: (0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, ...
função da janela spark sql lag
Eu estou olhando para a função de slide da janela para um Spark DataFrame no Spark SQL, Scala. Eu tenho um dataframe com colunas Col1, Col1, Col1, data. Col1 Col2 Col3 date volume new_col 201601 100.5 201602 120.6 100.5 201603 450.2 120.6 ...
Como agregar janela de tempo de rolagem com grupos no Spark
Tenho alguns dados que quero agrupar por uma determinada coluna e agregar uma série de campos com base em uma janela de tempo de rolagem do grupo. Aqui estão alguns dados de exemplo: df = spark.createDataFrame([Row(date='2016-01-01', ...
Função condicional de avanço / atraso do PostgreSQL?
Eu tenho uma tabela como esta: Name activity time user1 A1 12:00 user1 E3 12:01 user1 A2 12:02 user2 A1 10:05 user2 A2 10:06 user2 A3 10:07 user2 M6 10:07 user2 B1 10:08 user3 A1 14:15 user3 B2 14:20 user3 D1 14:25 user3 D2 14:30Agora, preciso ...