Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

Mit Spark DataFrame unterschiedliche Werte in einer Spalte abrufen

Verwenden von Spark 1.6.1 Ich muss bestimmte Werte für eine Spalte abrufen und dann eine bestimmte Transformation darüber durchführen. Die Spalte enthält mehr als 50 Millionen Datensätze und kann größer werden. Ich verstehe, dass ein @ zu ...

2 die antwort

Definieren einer UDF, die ein Array von Objekten in einem Spark-DataFrame akzeptiert?

Beim Arbeiten mit den DataFrames von Spark sind benutzerdefinierte Funktionen (User Defined Functions, UDFs) erforderlich, um Daten in Spalten zuzuordnen. Für UDFs müssen Argumenttypen explizit angegeben werden. In meinem Fall muss ich eine ...

4 die antwort

Spark Äquivalent von IF Then ELSE

Ich habe diese Frage hier früher gesehen und daraus Lehren gezogen. Ich bin mir jedoch nicht sicher, warum ich einen Fehler erhalte, wenn ich der Meinung bin, dass er funktionieren sollte. Ich möchte eine neue Spalte in vorhandenem Spark ...

TOP-Veröffentlichungen

2 die antwort

Spark ML Pipeline Verursacht java.lang.Exception: Fehler beim Kompilieren… Code… wächst über 64 KB hinaus

it Spark 2.0 versuche ich, einen einfachen VectorAssembler in einer Pyspark-ML-Pipeline wie folgt auszuführen: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...

2 die antwort

Leistungsauswirkungen der RDD-API im Vergleich zu UDFs, die mit der DataFrame-API gemischt sind

(Scala-spezifische Frage.) n @While Spark-Dokumenten wird die Verwendung der DataFrame-API empfohlen. Wenn die DataFrame-API nicht ausreicht, können Sie normalerweise auf die RDD-API zurückgreifen oder UDFs verwenden. Gibt es inhärente ...

2 die antwort

Spark: Shuffle-Operation führt zu langer GC-Pause

Ich renneSpark 2 und versuche, um 5 Terabyte Json zu mischen. Ich habe beim Mischen eines @s sehr lange Pausen bei der Garbage CollectioDataset: val operations = spark.read.json(inPath).as[MyClass] operations.repartition(partitions, ...

2 die antwort

Warum wird SparkSession für eine Aktion zweimal ausgeführt?

Neues Upgrade auf Spark 2.0 und merkwürdiges Verhalten beim Erstellen eines einfachen Datasets aus JSON-Zeichenfolgen. Hier ist ein einfacher Testfall: SparkSession spark ...

6 die antwort

Wie konvertiere ich eine Spalte von Arrays von Strings in Strings?

Ich habe eine Spalte vom Typarray < string > in Spark-Tabellen. Ich benutze SQL, um diese Spark-Tabellen abzufragen. Ich wollte das @ konvertierarray < string >instring. Wenn die folgende Syntax verwendet wurde: select cast(rate_plan_code as ...

2 die antwort

Issues probiert ein Beispiel in der Spark-Shell aus

Wollte Spark 2.0 ausprobieren, aber als ich versuchte, den folgenden Code von @ aus ...

4 die antwort

Spark-Fehler: Erwartete Nullargumente für die Erstellung von ClassDict (für numpy.core.multiarray._reconstruct)

Ich habe einen Datenrahmen in Spark, in dem eine der Spalten ein Array enthält. Jetzt habe ich eine separate UDF geschrieben, die das Array in ein anderes Array mit unterschiedlichen Werten konvertiert. Siehe folgendes Beispiel: Ex: ...