Suchergebnisse für Anfrage "apache-spark-sql"
Mit Spark DataFrame unterschiedliche Werte in einer Spalte abrufen
Verwenden von Spark 1.6.1 Ich muss bestimmte Werte für eine Spalte abrufen und dann eine bestimmte Transformation darüber durchführen. Die Spalte enthält mehr als 50 Millionen Datensätze und kann größer werden. Ich verstehe, dass ein @ zu ...
Definieren einer UDF, die ein Array von Objekten in einem Spark-DataFrame akzeptiert?
Beim Arbeiten mit den DataFrames von Spark sind benutzerdefinierte Funktionen (User Defined Functions, UDFs) erforderlich, um Daten in Spalten zuzuordnen. Für UDFs müssen Argumenttypen explizit angegeben werden. In meinem Fall muss ich eine ...
Spark Äquivalent von IF Then ELSE
Ich habe diese Frage hier früher gesehen und daraus Lehren gezogen. Ich bin mir jedoch nicht sicher, warum ich einen Fehler erhalte, wenn ich der Meinung bin, dass er funktionieren sollte. Ich möchte eine neue Spalte in vorhandenem Spark ...
Spark ML Pipeline Verursacht java.lang.Exception: Fehler beim Kompilieren… Code… wächst über 64 KB hinaus
it Spark 2.0 versuche ich, einen einfachen VectorAssembler in einer Pyspark-ML-Pipeline wie folgt auszuführen: feature_assembler = VectorAssembler(inputCols=['category_count', 'name_count'], \ outputCol="features") pipeline = ...
Leistungsauswirkungen der RDD-API im Vergleich zu UDFs, die mit der DataFrame-API gemischt sind
(Scala-spezifische Frage.) n @While Spark-Dokumenten wird die Verwendung der DataFrame-API empfohlen. Wenn die DataFrame-API nicht ausreicht, können Sie normalerweise auf die RDD-API zurückgreifen oder UDFs verwenden. Gibt es inhärente ...
Spark: Shuffle-Operation führt zu langer GC-Pause
Ich renneSpark 2 und versuche, um 5 Terabyte Json zu mischen. Ich habe beim Mischen eines @s sehr lange Pausen bei der Garbage CollectioDataset: val operations = spark.read.json(inPath).as[MyClass] operations.repartition(partitions, ...
Warum wird SparkSession für eine Aktion zweimal ausgeführt?
Neues Upgrade auf Spark 2.0 und merkwürdiges Verhalten beim Erstellen eines einfachen Datasets aus JSON-Zeichenfolgen. Hier ist ein einfacher Testfall: SparkSession spark ...
Wie konvertiere ich eine Spalte von Arrays von Strings in Strings?
Ich habe eine Spalte vom Typarray < string > in Spark-Tabellen. Ich benutze SQL, um diese Spark-Tabellen abzufragen. Ich wollte das @ konvertierarray < string >instring. Wenn die folgende Syntax verwendet wurde: select cast(rate_plan_code as ...
Issues probiert ein Beispiel in der Spark-Shell aus
Wollte Spark 2.0 ausprobieren, aber als ich versuchte, den folgenden Code von @ aus ...
Spark-Fehler: Erwartete Nullargumente für die Erstellung von ClassDict (für numpy.core.multiarray._reconstruct)
Ich habe einen Datenrahmen in Spark, in dem eine der Spalten ein Array enthält. Jetzt habe ich eine separate UDF geschrieben, die das Array in ein anderes Array mit unterschiedlichen Werten konvertiert. Siehe folgendes Beispiel: Ex: ...