Suchergebnisse für Anfrage "pyspark"

4 die antwort

Was entspricht der Scala-Fallklasse in PySpark?

Wie würden Sie vorgehen, um ein Fallklassenäquivalent in PySpark einzusetzen und / oder zu implementieren?

4 die antwort

Spark RDD zu DataFrame Python

Ich versuche, die Spark-RDD in einen DataFrame zu konvertieren. Ich habe die Dokumentation und das Beispiel gesehen, in denen das Schema an @ übergeben wirsqlContext.CreateDataFrame(rdd,schema) Funktion. Aber ich habe 38 Spalten oder Felder und ...

2 die antwort

Wie kann ich Pyspark-RDDs mit R-Funktionen partitionieren?

import rpy2.robjects as robjects dffunc = sc.parallelize([(0,robjects.r.rnorm),(1,robjects.r.runif)]) dffunc.collect() Ausgänge [(0, <rpy2.rinterface.SexpClosure - Python:0x7f2ecfc28618 / R:0x26abd18>), (1, <rpy2.rinterface.SexpClosure - ...

TOP-Veröffentlichungen

2 die antwort

Wie führe ich eine Switch-Anweisung mit Apache Spark Dataframes (Python) durch?

Ich versuche, eine Operation für meine Daten auszuführen, bei der ein bestimmter Wert einer Liste vordefinierter Werte zugeordnet wird, wenn er einem der Kriterien entspricht, oder ansonsten einem Fall-Through-Wert. Dies wäre das Äquivalent zu ...

6 die antwort

Wie werden Spaltenüberschriften in Spark zugewiesen und verwendet?

Ich lese einen Datensatz wie unten. f = sc.textFile("s3://test/abc.csv")Meine Datei enthält über 50 Felder und ich möchte Spaltenüberschriften für jedes der Felder zuweisen, auf die später in meinem Skript verwiesen wird. Wie mache ich das in ...

2 die antwort

Spezifiziere Optionen für den von pyspark @ gestarteten J

Wie / wo werden die JVM-Optionen verwendet, die vom Pyspark-Skript beim Starten der JVM verwendet werden, mit der die Verbindung hergestellt wird? Ich bin speziell daran interessiert, JVM-Debugging-Optionen anzugeben, ...

2 die antwort

Wie filtere ich basierend auf dem Array-Wert in PySpark?

Mein Schema: |-- Canonical_URL: string (nullable = true) |-- Certifications: array (nullable = true) | |-- element: struct (containsNull = true) | | |-- Certification_Authority: string (nullable = true) | | |-- End: string (nullable = true) | | ...

12 die antwort

Zwei PySpark-Datenrahmen verknüpfen

Ich versuche, zwei PySpark-Datenrahmen mit einigen Spalten zu verknüpfen, die sich jeweils nur in ihnen befinden: from pyspark.sql.functions import randn, rand df_1 = sqlContext.range(0, 10) +--+ |id| +--+ | 0| | 1| | 2| | 3| | 4| | 5| | 6| | ...

4 die antwort

Anzahl der Partitionen in RDD und Leistung in Spark

In Pyspark kann ich eine RDD aus einer Liste erstellen und entscheiden, wie viele Partitionen vorhanden sein sollen: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)Wie wirkt sich die Anzahl der Partitionen, die ich für die Partitionierung ...

12 die antwort

Renaming-Spalten für Pyspark Dataframes-Aggregate

Ich analysiere einige Daten mit Pyspark-Datenrahmen. Angenommen, ich habe einen Datenrahmen.df dass ich aggregiere: df.groupBy("group")\ .agg({"money":"sum"})\ .show(100)Dies wird mir geben: group SUM(money#2L) A 137461285853 B 172185566943 C ...