Suchergebnisse für Anfrage "pyspark"
pyspark EOFError nach Aufruf von map
Ich bin neu in Funken & Pyspark. Ich lese eine kleine csv-Datei (~ 40k) in einen Datenrahmen. from pyspark.sql import functions as F df ...
pyspark: 'PipelinedRDD' Objekt ist nicht iterierbar
Ich erhalte diesen Fehler, aber ich weiß nicht warum. Grundsätzlich irre ich mich von diesem Code: a = data.mapPartitions(helper(locations))where data ist ein RDD und mein Helfer ist wie folgt definiert: def helper(iterator, locations): for x ...
Wie werden Spaltenüberschriften in Spark zugewiesen und verwendet?
Ich lese einen Datensatz wie unten. f = sc.textFile("s3://test/abc.csv")Meine Datei enthält über 50 Felder und ich möchte Spaltenüberschriften für jedes der Felder zuweisen, auf die später in meinem Skript verwiesen wird. Wie mache ich das in ...
Summenoperation auf PySpark DataFrame, die TypeError ausgibt, wenn der Typ in Ordnung ist
Ich habe einen solchen DataFrame in PySpark (dies ist das Ergebnis einer Einstellung (3), der DataFrame ist sehr groß): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]das GleicheInhabe ...
spark: So erstellen Sie ein dropDuplicate für einen Datenframe unter Beibehaltung der Zeile mit dem höchsten Zeitstempel [duplizieren]
Diese Frage hat hier bereits eine Antwort: Maximale Zeile pro Gruppe in Spark DataFrame finden [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 Antworten Ich habe einen Anwendungsfall, in dem ich doppelte Zeilen eines ...
Was bedeutet die Ausnahme: Die Zufälligkeit des Hashs von Strings sollte im Pyspark über PYTHONHASHSEED deaktiviert werden?
Ich versuche, ein Wörterbuch aus einer Liste in Pyspark zu erstellen. Ich habe die folgende Liste von Listen: rawPositions Gibt [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', ...
Wie kann ich einen pySpark-Datenrahmen um eine Array-Spalte glätten? [Duplikat
Diese Frage hat hier bereits eine Antwort: Aufteilen komplexer Zeilen von Datenrahmen in einfache Zeilen in Pyspark [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 AntwortenIch habe einen Spark-Datenrahmen ...
Wie führe ich eine Switch-Anweisung mit Apache Spark Dataframes (Python) durch?
Ich versuche, eine Operation für meine Daten auszuführen, bei der ein bestimmter Wert einer Liste vordefinierter Werte zugeordnet wird, wenn er einem der Kriterien entspricht, oder ansonsten einem Fall-Through-Wert. Dies wäre das Äquivalent zu ...
PySpark Konvertieren einer Spalte vom Typ "Map" in mehrere Spalten in einem Datenrahmen
EinganIch habe eine SpalteParameters vom Typmap des Formulars: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...
Hol den Maximalwert für jeden Schlüssel in einem Spark-RDD
Was ist der beste Weg, um die maximale Zeile (Wert) zurückzugeben, die jedem eindeutigen Schlüssel in einer Funken-RDD zugeordnet ist? Ich benutze Python und habe es mit Math max versucht, indem ich es mit Schlüsseln und Aggregaten abbilde und ...