Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

Connect to SQLite in Apache Spark

Ich möchte eine benutzerdefinierte Funktion für alle Tabellen in einer SQLite-Datenbank ausführen. Die Funktion ist mehr oder weniger gleich, hängt jedoch vom Schema der einzelnen Tabelle ab. Außerdem sind die Tabellen und ihre Schemata nur zur ...

4 die antwort

Auf alle Felder der Spark-Datenrahmenzeile die gleiche Funktion anwenden

Ich habe Datenrahmen, in denen ich ungefähr 1000s (variable) Spalten habe. Ich möchte alle Werte in Großbuchstaben schreiben. Hier ist der Ansatz, an den ich gedacht habe, kannst du vorschlagen, ob dies der beste Weg ist. Zeile nehmenFinde das ...

6 die antwort

Wie werden Werte nach groupBy in einer Sammlung zusammengefasst?

Ich habe einen Datenrahmen mit Schema als solches: [visitorId: string, trackingIds: array<string>, emailIds: array<string>]Suchen Sie nach einer Möglichkeit, diesen Datenrahmen nach Besucher-ID zu gruppieren (oder möglicherweise zu rollen?), ...

TOP-Veröffentlichungen

4 die antwort

Wie benenne ich Felder in einem DataFrame um, der verschachteltem JSON entspricht?

Ich versuche, in einer mobilen App empfangene JSON-Ereignisse (wie Klicks usw.) mit @ zu verarbeitespark 1.5.2. Es gibt mehrere App-Versionen und die Struktur der Ereignisse variiert je nach Version. Say Version 1 hat die folgende Struktur: { ...

2 die antwort

Spark 1.5.1 funktioniert nicht mit Hive JDBC 1.2.0

Ich versuche, eine Hive-Abfrage mit Spark 1.5.1 im Standalone-Modus und Hive 1.2.0 JDBC-Version auszuführen. Hier ist mein Code: private static final String HIVE_DRIVER = "org.apache.hive.jdbc.HiveDriver"; private static final String ...

4 die antwort

Stammtabellen im YARN-Cluster-Modus nicht gefunden

Ich habe eine Spark-Anwendung (Version 1.4.1) auf HDP 2.3. Es funktioniert einwandfrei, wenn es im YARN-Client-Modus ausgeführt wird. Wenn es jedoch im YARN-Cluster-Modus ausgeführt wird, kann keine meiner Hive-Tabellen von der Anwendung gefunden ...

4 die antwort

PySpark 1.5 So kürzen Sie den Zeitstempel von Sekunden auf die nächste Minute

Ich benutze PySpark. Ich habe eine Spalte ('dt') in einem Datenrahmen ('canon_evt'), die dies ein Zeitstempel ist. Ich versuche, Sekunden aus einem DateTime-Wert zu entfernen. Es wird ursprünglich als String aus Parkett eingelesen. Ich versuche ...

4 die antwort

Spark fügt dem Datenrahmen eine neue Spalte mit dem Wert aus der vorherigen Zeile hinzu

Ich frage mich, wie ich das Folgende in Spark (Pyspark) erreichen kann Initial Dataframe: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Resulting Dataframe: +--+---+-------+ |id|num|new_Col| ...

4 die antwort

Wie berechnet man den Median in spark sqlContext für die Spalte vom Datentyp double

Ich habe die Probentabelle gegeben. Ich möchte den Median aus der Spalte "Wert" für jede Spalte "Quelle" der Gruppe ermitteln. Wobei die Quellenspalte vom Typ String DataType ist und die Wertespalte vom Typ double DataType @ i scala> ...

4 die antwort

Pandas-artige Transformation gruppierter Daten in PySpark DataFrame

Wenn wir einen Pandas-Datenrahmen haben, der aus einer Spalte mit Kategorien und einer Spalte mit Werten besteht, können wir den Mittelwert in jeder Kategorie folgendermaßen entfernen: df["DemeanedValues"] = ...