Suchergebnisse für Anfrage "apache-spark-sql"
Wie ändere ich den Spaltentyp in DataFrames von "String" in "Datum"?
Ich habe einen Datenrahmen mit zwei Spalten (C, D), die als Zeichenfolgenspaltentyp definiert sind, aber die Daten in den Spalten sind tatsächlich Datumsangaben. Spalte C hat beispielsweise das Datum "01-APR-2015" und Spalte D das Datum ...
Wie schreibe ich einen Fall mit der when-Bedingung in spark sql mit scala
SELECT c.PROCESS_ID, CASE WHEN c.PAYMODE = 'M' THEN CASE WHEN CURRENCY = 'USD' THEN c.PREMIUM * c.RATE ELSE c.PREMIUM END * 12 ELSE CASE WHEN CURRENCY = 'USD' THEN c.PREMIUM * c.RATE ELSE c.PREMIUM END END VAlue FROM CMM cIch möchte SQL Query ...
Fügen Sie einem Datenrahmen eine neue Spalte hinzu. Neue Spalte Ich möchte, dass es ein UUID-Generator ist
Ich möchte einem Dataframe, einem UUID-Generator, eine neue Spalte hinzufügen. er @ UUID-Wert sieht ungefähr so aus wie21534cf7-cff9-482a-a3a8-9e7244240da7 Meine Forschung: Ich habe es mit @ versucwithColumn Methode im Funken. val DF2 = ...
Differenz zwischen DataFrame, Dataset und RDD in Spark
Ich frage mich nur, was ist der Unterschied zwischen einemRDD undDataFrame (Spark 2.0.0 DataFrame ist ein reiner Typalias fürDataset[Row]) in Apache Spark? Kannst du eins in das andere konvertieren?
Query Ein verschachteltes Array in Parkettaufzeichnungen
ch versuche verschiedene Möglichkeiten, einen Datensatz in einem Array von Datensätzen abzufragen und die vollständige Zeile als Ausgabe anzuzeige Ich weiß nicht, welches verschachtelte Objekt den String "pg" hat. Aber ich möchte nach einem ...
erschieben von Spark DataFrame von Python nach Scala mit Zeppel
Ich habe einen Funken DataFrame in einem Python-Absatz in Zeppelin erstellt. sqlCtx = SQLContext(sc) spDf = sqlCtx.createDataFrame(df)unddf ist ein Pandas-Datenrahmen print(type(df)) <class 'pandas.core.frame.DataFrame'>was ich tun möchte, ...
Filter Pyspark-Datenrahmenspalte mit dem Wert None
Ich versuche, einen PySpark-Datenrahmen mit @ zu filterNone als Zeilenwert: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), ...
Spark Task mit Lag Window Funktion nicht serialisierbar
Ich habe festgestellt, dass nach der Verwendung einer Window-Funktion über einen DataFrame beim Aufrufen einer map () mit einer Funktion Spark eine "Task nicht serialisierbar" zurückgibt. Ausnahme Dies ist mein Code: val ...
Spark Dataframe groupBy mit der Sequenz als Schlüsselargumente [duplizieren]
Diese Frage hat hier bereits eine Antwort: Multiple Aggregate-Operationen für dieselbe Spalte eines Spark-Datenrahmens [/questions/34954771/multiple-aggregate-operations-on-the-same-column-of-a-spark-dataframe] 2 AntwortenIch habe einen Funken ...
Wann wird die Spark DataFrame / Dataset-API verwendet und wann wird RDD verwendet?
as @Spark SQL DataFrame / Dataset-Ausführungsmodul verfügt über mehrere äußerst effiziente Zeit- und Raumoptimierungen (z. B. InternalRow und expression codeGen). Vielen Dokumentationen zufolge scheint es für die meisten verteilten Algorithmen ...