Suchergebnisse für Anfrage "pyspark"

4 die antwort

pyspark EOFError nach Aufruf von map

Ich bin neu in Funken & Pyspark. Ich lese eine kleine csv-Datei (~ 40k) in einen Datenrahmen. from pyspark.sql import functions as F df ...

4 die antwort

pyspark: 'PipelinedRDD' Objekt ist nicht iterierbar

Ich erhalte diesen Fehler, aber ich weiß nicht warum. Grundsätzlich irre ich mich von diesem Code: a = data.mapPartitions(helper(locations))where data ist ein RDD und mein Helfer ist wie folgt definiert: def helper(iterator, locations): for x ...

6 die antwort

Wie werden Spaltenüberschriften in Spark zugewiesen und verwendet?

Ich lese einen Datensatz wie unten. f = sc.textFile("s3://test/abc.csv")Meine Datei enthält über 50 Felder und ich möchte Spaltenüberschriften für jedes der Felder zuweisen, auf die später in meinem Skript verwiesen wird. Wie mache ich das in ...

TOP-Veröffentlichungen

2 die antwort

Summenoperation auf PySpark DataFrame, die TypeError ausgibt, wenn der Typ in Ordnung ist

Ich habe einen solchen DataFrame in PySpark (dies ist das Ergebnis einer Einstellung (3), der DataFrame ist sehr groß): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]das GleicheInhabe ...

4 die antwort

spark: So erstellen Sie ein dropDuplicate für einen Datenframe unter Beibehaltung der Zeile mit dem höchsten Zeitstempel [duplizieren]

Diese Frage hat hier bereits eine Antwort: Maximale Zeile pro Gruppe in Spark DataFrame finden [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 Antworten Ich habe einen Anwendungsfall, in dem ich doppelte Zeilen eines ...

4 die antwort

Was bedeutet die Ausnahme: Die Zufälligkeit des Hashs von Strings sollte im Pyspark über PYTHONHASHSEED deaktiviert werden?

Ich versuche, ein Wörterbuch aus einer Liste in Pyspark zu erstellen. Ich habe die folgende Liste von Listen: rawPositions Gibt [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', ...

2 die antwort

Wie kann ich einen pySpark-Datenrahmen um eine Array-Spalte glätten? [Duplikat

Diese Frage hat hier bereits eine Antwort: Aufteilen komplexer Zeilen von Datenrahmen in einfache Zeilen in Pyspark [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 AntwortenIch habe einen Spark-Datenrahmen ...

2 die antwort

Wie führe ich eine Switch-Anweisung mit Apache Spark Dataframes (Python) durch?

Ich versuche, eine Operation für meine Daten auszuführen, bei der ein bestimmter Wert einer Liste vordefinierter Werte zugeordnet wird, wenn er einem der Kriterien entspricht, oder ansonsten einem Fall-Through-Wert. Dies wäre das Äquivalent zu ...

2 die antwort

PySpark Konvertieren einer Spalte vom Typ "Map" in mehrere Spalten in einem Datenrahmen

EinganIch habe eine SpalteParameters vom Typmap des Formulars: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...

2 die antwort

Hol den Maximalwert für jeden Schlüssel in einem Spark-RDD

Was ist der beste Weg, um die maximale Zeile (Wert) zurückzugeben, die jedem eindeutigen Schlüssel in einer Funken-RDD zugeordnet ist? Ich benutze Python und habe es mit Math max versucht, indem ich es mit Schlüsseln und Aggregaten abbilde und ...