Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

Wie ändere ich den Spaltentyp in DataFrames von "String" in "Datum"?

Ich habe einen Datenrahmen mit zwei Spalten (C, D), die als Zeichenfolgenspaltentyp definiert sind, aber die Daten in den Spalten sind tatsächlich Datumsangaben. Spalte C hat beispielsweise das Datum "01-APR-2015" und Spalte D das Datum ...

2 die antwort

Wie schreibe ich einen Fall mit der when-Bedingung in spark sql mit scala

SELECT c.PROCESS_ID, CASE WHEN c.PAYMODE = 'M' THEN CASE WHEN CURRENCY = 'USD' THEN c.PREMIUM * c.RATE ELSE c.PREMIUM END * 12 ELSE CASE WHEN CURRENCY = 'USD' THEN c.PREMIUM * c.RATE ELSE c.PREMIUM END END VAlue FROM CMM cIch möchte SQL Query ...

4 die antwort

Fügen Sie einem Datenrahmen eine neue Spalte hinzu. Neue Spalte Ich möchte, dass es ein UUID-Generator ist

Ich möchte einem Dataframe, einem UUID-Generator, eine neue Spalte hinzufügen. er @ UUID-Wert sieht ungefähr so aus wie21534cf7-cff9-482a-a3a8-9e7244240da7 Meine Forschung: Ich habe es mit @ versucwithColumn Methode im Funken. val DF2 = ...

TOP-Veröffentlichungen

28 die antwort

Differenz zwischen DataFrame, Dataset und RDD in Spark

Ich frage mich nur, was ist der Unterschied zwischen einemRDD undDataFrame (Spark 2.0.0 DataFrame ist ein reiner Typalias fürDataset[Row]) in Apache Spark? Kannst du eins in das andere konvertieren?

4 die antwort

Query Ein verschachteltes Array in Parkettaufzeichnungen

ch versuche verschiedene Möglichkeiten, einen Datensatz in einem Array von Datensätzen abzufragen und die vollständige Zeile als Ausgabe anzuzeige Ich weiß nicht, welches verschachtelte Objekt den String "pg" hat. Aber ich möchte nach einem ...

2 die antwort

erschieben von Spark DataFrame von Python nach Scala mit Zeppel

Ich habe einen Funken DataFrame in einem Python-Absatz in Zeppelin erstellt. sqlCtx = SQLContext(sc) spDf = sqlCtx.createDataFrame(df)unddf ist ein Pandas-Datenrahmen print(type(df)) <class 'pandas.core.frame.DataFrame'>was ich tun möchte, ...

6 die antwort

Filter Pyspark-Datenrahmenspalte mit dem Wert None

Ich versuche, einen PySpark-Datenrahmen mit @ zu filterNone als Zeilenwert: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), ...

2 die antwort

Spark Task mit Lag Window Funktion nicht serialisierbar

Ich habe festgestellt, dass nach der Verwendung einer Window-Funktion über einen DataFrame beim Aufrufen einer map () mit einer Funktion Spark eine "Task nicht serialisierbar" zurückgibt. Ausnahme Dies ist mein Code: val ...

2 die antwort

Spark Dataframe groupBy mit der Sequenz als Schlüsselargumente [duplizieren]

Diese Frage hat hier bereits eine Antwort: Multiple Aggregate-Operationen für dieselbe Spalte eines Spark-Datenrahmens [/questions/34954771/multiple-aggregate-operations-on-the-same-column-of-a-spark-dataframe] 2 AntwortenIch habe einen Funken ...

2 die antwort

Wann wird die Spark DataFrame / Dataset-API verwendet und wann wird RDD verwendet?

as @Spark SQL DataFrame / Dataset-Ausführungsmodul verfügt über mehrere äußerst effiziente Zeit- und Raumoptimierungen (z. B. InternalRow und expression codeGen). Vielen Dokumentationen zufolge scheint es für die meisten verteilten Algorithmen ...