Suchergebnisse für Anfrage "apache-spark-sql"
Connect to SQLite in Apache Spark
Ich möchte eine benutzerdefinierte Funktion für alle Tabellen in einer SQLite-Datenbank ausführen. Die Funktion ist mehr oder weniger gleich, hängt jedoch vom Schema der einzelnen Tabelle ab. Außerdem sind die Tabellen und ihre Schemata nur zur ...
Auf alle Felder der Spark-Datenrahmenzeile die gleiche Funktion anwenden
Ich habe Datenrahmen, in denen ich ungefähr 1000s (variable) Spalten habe. Ich möchte alle Werte in Großbuchstaben schreiben. Hier ist der Ansatz, an den ich gedacht habe, kannst du vorschlagen, ob dies der beste Weg ist. Zeile nehmenFinde das ...
Wie werden Werte nach groupBy in einer Sammlung zusammengefasst?
Ich habe einen Datenrahmen mit Schema als solches: [visitorId: string, trackingIds: array<string>, emailIds: array<string>]Suchen Sie nach einer Möglichkeit, diesen Datenrahmen nach Besucher-ID zu gruppieren (oder möglicherweise zu rollen?), ...
Wie benenne ich Felder in einem DataFrame um, der verschachteltem JSON entspricht?
Ich versuche, in einer mobilen App empfangene JSON-Ereignisse (wie Klicks usw.) mit @ zu verarbeitespark 1.5.2. Es gibt mehrere App-Versionen und die Struktur der Ereignisse variiert je nach Version. Say Version 1 hat die folgende Struktur: { ...
Spark 1.5.1 funktioniert nicht mit Hive JDBC 1.2.0
Ich versuche, eine Hive-Abfrage mit Spark 1.5.1 im Standalone-Modus und Hive 1.2.0 JDBC-Version auszuführen. Hier ist mein Code: private static final String HIVE_DRIVER = "org.apache.hive.jdbc.HiveDriver"; private static final String ...
Stammtabellen im YARN-Cluster-Modus nicht gefunden
Ich habe eine Spark-Anwendung (Version 1.4.1) auf HDP 2.3. Es funktioniert einwandfrei, wenn es im YARN-Client-Modus ausgeführt wird. Wenn es jedoch im YARN-Cluster-Modus ausgeführt wird, kann keine meiner Hive-Tabellen von der Anwendung gefunden ...
PySpark 1.5 So kürzen Sie den Zeitstempel von Sekunden auf die nächste Minute
Ich benutze PySpark. Ich habe eine Spalte ('dt') in einem Datenrahmen ('canon_evt'), die dies ein Zeitstempel ist. Ich versuche, Sekunden aus einem DateTime-Wert zu entfernen. Es wird ursprünglich als String aus Parkett eingelesen. Ich versuche ...
Spark fügt dem Datenrahmen eine neue Spalte mit dem Wert aus der vorherigen Zeile hinzu
Ich frage mich, wie ich das Folgende in Spark (Pyspark) erreichen kann Initial Dataframe: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Resulting Dataframe: +--+---+-------+ |id|num|new_Col| ...
Wie berechnet man den Median in spark sqlContext für die Spalte vom Datentyp double
Ich habe die Probentabelle gegeben. Ich möchte den Median aus der Spalte "Wert" für jede Spalte "Quelle" der Gruppe ermitteln. Wobei die Quellenspalte vom Typ String DataType ist und die Wertespalte vom Typ double DataType @ i scala> ...
Pandas-artige Transformation gruppierter Daten in PySpark DataFrame
Wenn wir einen Pandas-Datenrahmen haben, der aus einer Spalte mit Kategorien und einer Spalte mit Werten besteht, können wir den Mittelwert in jeder Kategorie folgendermaßen entfernen: df["DemeanedValues"] = ...