Suchergebnisse für Anfrage "apache-spark-sql"

Ich möchte eine benutzerdefinierte Funktion für alle Tabellen in einer SQLite-Datenbank ausführen. Die Funktion ist mehr oder weniger gleich, hängt jedoch vom Schema der einzelnen Tabelle ab. Außerdem sind die Tabellen und ihre Schemata nur zur ...

apache-spark

4 die antwort

Auf alle Felder der Spark-Datenrahmenzeile die gleiche Funktion anwenden

Ich habe Datenrahmen, in denen ich ungefähr 1000s (variable) Spalten habe. Ich möchte alle Werte in Großbuchstaben schreiben. Hier ist der Ansatz, an den ich gedacht habe, kannst du vorschlagen, ob dies der beste Weg ist. Zeile nehmenFinde das ...

scala apache-spark

6 die antwort

Wie werden Werte nach groupBy in einer Sammlung zusammengefasst?

Ich habe einen Datenrahmen mit Schema als solches: [visitorId: string, trackingIds: array<string>, emailIds: array<string>]Suchen Sie nach einer Möglichkeit, diesen Datenrahmen nach Besucher-ID zu gruppieren (oder möglicherweise zu rollen?), ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

apache-spark

4 die antwort

Wie benenne ich Felder in einem DataFrame um, der verschachteltem JSON entspricht?

Ich versuche, in einer mobilen App empfangene JSON-Ereignisse (wie Klicks usw.) mit @ zu verarbeitespark 1.5.2. Es gibt mehrere App-Versionen und die Struktur der Ereignisse variiert je nach Version. Say Version 1 hat die folgende Struktur: { ...

apache-spark

2 die antwort

Spark 1.5.1 funktioniert nicht mit Hive JDBC 1.2.0

Ich versuche, eine Hive-Abfrage mit Spark 1.5.1 im Standalone-Modus und Hive 1.2.0 JDBC-Version auszuführen. Hier ist mein Code: private static final String HIVE_DRIVER = "org.apache.hive.jdbc.HiveDriver"; private static final String ...

apache-spark hortonworks-data-platform yarn hive

4 die antwort

Stammtabellen im YARN-Cluster-Modus nicht gefunden

Ich habe eine Spark-Anwendung (Version 1.4.1) auf HDP 2.3. Es funktioniert einwandfrei, wenn es im YARN-Client-Modus ausgeführt wird. Wenn es jedoch im YARN-Cluster-Modus ausgeführt wird, kann keine meiner Hive-Tabellen von der Anwendung gefunden ...

apache-spark python pyspark datetime

4 die antwort

PySpark 1.5 So kürzen Sie den Zeitstempel von Sekunden auf die nächste Minute

Ich benutze PySpark. Ich habe eine Spalte ('dt') in einem Datenrahmen ('canon_evt'), die dies ein Zeitstempel ist. Ich versuche, Sekunden aus einem DateTime-Wert zu entfernen. Es wird ursprünglich als String aus Parkett eingelesen. Ich versuche ...

pyspark dataframe apache-spark python

4 die antwort

Spark fügt dem Datenrahmen eine neue Spalte mit dem Wert aus der vorherigen Zeile hinzu

Ich frage mich, wie ich das Folgende in Spark (Pyspark) erreichen kann Initial Dataframe: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Resulting Dataframe: +--+---+-------+ |id|num|new_Col| ...

hive apache-spark

4 die antwort

Wie berechnet man den Median in spark sqlContext für die Spalte vom Datentyp double

Ich habe die Probentabelle gegeben. Ich möchte den Median aus der Spalte "Wert" für jede Spalte "Quelle" der Gruppe ermitteln. Wobei die Quellenspalte vom Typ String DataType ist und die Wertespalte vom Typ double DataType @ i scala> ...

python pandas pyspark apache-spark

4 die antwort

Pandas-artige Transformation gruppierter Daten in PySpark DataFrame

Wenn wir einen Pandas-Datenrahmen haben, der aus einer Spalte mit Kategorien und einer Spalte mit Werten besteht, können wir den Mittelwert in jeder Kategorie folgendermaßen entfernen: df["DemeanedValues"] = ...

Seite 14 von 32

12 131415 16

Suchergebnisse für Anfrage "apache-spark-sql"

Connect to SQLite in Apache Spark

Auf alle Felder der Spark-Datenrahmenzeile die gleiche Funktion anwenden

Wie werden Werte nach groupBy in einer Sammlung zusammengefasst?

Beliebte Schlagwörter

TOP-Veröffentlichungen

Wie benenne ich Felder in einem DataFrame um, der verschachteltem JSON entspricht?

Spark 1.5.1 funktioniert nicht mit Hive JDBC 1.2.0

Stammtabellen im YARN-Cluster-Modus nicht gefunden

PySpark 1.5 So kürzen Sie den Zeitstempel von Sekunden auf die nächste Minute

Spark fügt dem Datenrahmen eine neue Spalte mit dem Wert aus der vorherigen Zeile hinzu

Wie berechnet man den Median in spark sqlContext für die Spalte vom Datentyp double

Pandas-artige Transformation gruppierter Daten in PySpark DataFrame

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "apache-spark-sql"

Beliebte Schlagwörter

TOP-Veröffentlichungen