Suchergebnisse für Anfrage "window-functions"
Pyspark: Benutzerdefinierte Fensterfunktion
Ich versuche derzeit, eine Reihe aufeinanderfolgender Vorkommen in einem PySpark-Datenrahmen zu extrahieren und sie wie unten gezeigt zu ordnen / einzuordnen (der Einfachheit halber habe ich den anfänglichen Datenrahmen nach @ bestelluser_id ...
Spark Window Functions benötigt HiveContext?
Ich versuche ein Beispiel für eine Fensterfunktion auf Funken aus diesem ...
Complex 'Gaps and Islands' Ausgabe
Ich habe eine Tabelle in einer Postgres-Datenbank wie folgt: person | eventdate | type -------------------------------------- <uuid-1> | 2016-05-14 | 300 <uuid-3> | 2016-05-14 | 300 <uuid-1> | 2016-05-15 | 301 <uuid-1> | 2016-05-16 | 301 ...
So filtern Sie Daten mithilfe von Fensterfunktionen in spark
Ich habe folgende Daten: rowid uid time code 1 1 5 a 2 1 6 b 3 1 7 c 4 2 8 a 5 2 9 c 6 2 9 c 7 2 10 c 8 2 11 a 9 2 12 c Jetzt wollte ich die Daten so filtern, dass ich die Zeilen 6 und 7 entfernen kann, da ich für eine bestimmte UID nur eine ...
Partitionierung nach mehreren Spalten in Spark SQL
Mit den Fensterfunktionen von Spark SQL muss ich meine Datenabfragen wie folgt nach mehreren Spalten partitionieren: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) Ich habe derzeit keine Testumgebung (ich arbeite ...
Spark Task mit Lag Window Funktion nicht serialisierbar
Ich habe festgestellt, dass nach der Verwendung einer Window-Funktion über einen DataFrame beim Aufrufen einer map () mit einer Funktion Spark eine "Task nicht serialisierbar" zurückgibt. Ausnahme Dies ist mein Code: val ...
Verwenden von Fensterfunktionen in Spark
Ich versuche, rowNumber in Spark-Datenrahmen zu verwenden. Meine Abfragen funktionieren erwartungsgemäß in der Spark-Shell. Aber wenn ich sie in Eclipse ausschreibe und ein Glas kompiliere, stoße ich auf einen Fehler 16/03/23 05:52:43 ERROR ...
Wie kann man das Ausführen von SUM "zurücksetzen", nachdem es einen Schwellenwert erreicht hat?
Ich habe eine Abfrage geschrieben, die zwei Spalten erstellt:the_day, und dieamount_raised an diesem Tag. Folgendes habe ich: [/imgs/SlNQH.png] Und ich möchte eine Spalte hinzufügen, die eine laufende Summe von @ hamount_raised: ...
First_value Fensterfunktion in Pyspark
Ich benutze Pyspark 1.5, um meine Daten aus Hive-Tabellen abzurufen und versuche, Fensterfunktionen zu verwenden. GemäßDie [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] gibt es eine analytische ...
Running Summe über wiederholte Gruppierung nach Elementen basierend auf der Zeit in Oracle SQL
Mein erster Beitrag, also trage mich. Ich möchte die Summe basierend auf einem Wert erstellen, der nach Datumsangaben unterteilt ist, möchte jedoch nur die Summe für die Datumsangaben, nicht für die Gruppe nach Element insgesamt. Ich habe seit ...