Suchergebnisse für Anfrage "pyspark"

Ich bin neu in Funken & Pyspark. Ich lese eine kleine csv-Datei (~ 40k) in einen Datenrahmen. from pyspark.sql import functions as F df ...

rdd

4 die antwort

pyspark: 'PipelinedRDD' Objekt ist nicht iterierbar

Ich erhalte diesen Fehler, aber ich weiß nicht warum. Grundsätzlich irre ich mich von diesem Code: a = data.mapPartitions(helper(locations))where data ist ein RDD und mein Helfer ist wie folgt definiert: def helper(iterator, locations): for x ...

multiple-columns hadoop python apache-spark

6 die antwort

Wie werden Spaltenüberschriften in Spark zugewiesen und verwendet?

Ich lese einen Datensatz wie unten. f = sc.textFile("s3://test/abc.csv")Meine Datei enthält über 50 Felder und ich möchte Spaltenüberschriften für jedes der Felder zuweisen, auf die später in meinem Skript verwiesen wird. Wie mache ich das in ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

apache-spark dataframe python

2 die antwort

Summenoperation auf PySpark DataFrame, die TypeError ausgibt, wenn der Typ in Ordnung ist

Ich habe einen solchen DataFrame in PySpark (dies ist das Ergebnis einer Einstellung (3), der DataFrame ist sehr groß): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]das GleicheInhabe ...

dataframe apache-spark spark-dataframe

4 die antwort

spark: So erstellen Sie ein dropDuplicate für einen Datenframe unter Beibehaltung der Zeile mit dem höchsten Zeitstempel [duplizieren]

Diese Frage hat hier bereits eine Antwort: Maximale Zeile pro Gruppe in Spark DataFrame finden [/questions/35218882/find-maximum-row-per-group-in-spark-dataframe] 2 Antworten Ich habe einen Anwendungsfall, in dem ich doppelte Zeilen eines ...

apache-spark python-3.x

4 die antwort

Was bedeutet die Ausnahme: Die Zufälligkeit des Hashs von Strings sollte im Pyspark über PYTHONHASHSEED deaktiviert werden?

Ich versuche, ein Wörterbuch aus einer Liste in Pyspark zu erstellen. Ich habe die folgende Liste von Listen: rawPositions Gibt [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', ...

python apache-spark

2 die antwort

Wie kann ich einen pySpark-Datenrahmen um eine Array-Spalte glätten? [Duplikat

Diese Frage hat hier bereits eine Antwort: Aufteilen komplexer Zeilen von Datenrahmen in einfache Zeilen in Pyspark [/questions/36186627/dividing-complex-rows-of-dataframe-to-simple-rows-in-pyspark] 2 AntwortenIch habe einen Spark-Datenrahmen ...

apache-spark apache-spark-sql dataframe python

2 die antwort

Wie führe ich eine Switch-Anweisung mit Apache Spark Dataframes (Python) durch?

Ich versuche, eine Operation für meine Daten auszuführen, bei der ein bestimmter Wert einer Liste vordefinierter Werte zugeordnet wird, wenn er einem der Kriterien entspricht, oder ansonsten einem Fall-Through-Wert. Dies wäre das Äquivalent zu ...

dataframe apache-spark python apache-spark-sql

2 die antwort

PySpark Konvertieren einer Spalte vom Typ "Map" in mehrere Spalten in einem Datenrahmen

EinganIch habe eine SpalteParameters vom Typmap des Formulars: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...

rdd python apache-spark

2 die antwort

Hol den Maximalwert für jeden Schlüssel in einem Spark-RDD

Was ist der beste Weg, um die maximale Zeile (Wert) zurückzugeben, die jedem eindeutigen Schlüssel in einer Funken-RDD zugeordnet ist? Ich benutze Python und habe es mit Math max versucht, indem ich es mit Schlüsseln und Aggregaten abbilde und ...

Seite 18 von 27

16 171819 20

Suchergebnisse für Anfrage "pyspark"

pyspark EOFError nach Aufruf von map

pyspark: 'PipelinedRDD' Objekt ist nicht iterierbar

Wie werden Spaltenüberschriften in Spark zugewiesen und verwendet?

Beliebte Schlagwörter

TOP-Veröffentlichungen

Summenoperation auf PySpark DataFrame, die TypeError ausgibt, wenn der Typ in Ordnung ist

spark: So erstellen Sie ein dropDuplicate für einen Datenframe unter Beibehaltung der Zeile mit dem höchsten Zeitstempel [duplizieren]

Was bedeutet die Ausnahme: Die Zufälligkeit des Hashs von Strings sollte im Pyspark über PYTHONHASHSEED deaktiviert werden?

Wie kann ich einen pySpark-Datenrahmen um eine Array-Spalte glätten? [Duplikat

Wie führe ich eine Switch-Anweisung mit Apache Spark Dataframes (Python) durch?

PySpark Konvertieren einer Spalte vom Typ "Map" in mehrere Spalten in einem Datenrahmen

Hol den Maximalwert für jeden Schlüssel in einem Spark-RDD

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "pyspark"

Beliebte Schlagwörter

TOP-Veröffentlichungen