Suchergebnisse für Anfrage "pyspark"

2 die antwort

Wie werden RDDs aufgelistet, die in der Spark-Shell definiert sind?

In beiden "Spark-Shell" - oder "Pyspark" -Shells habe ich viele RDDs erstellt, aber ich konnte in meiner aktuellen Sitzung von Spark Shell keine Möglichkeit finden, alle verfügbaren RDDs aufzuliste

2 die antwort

Wie wirkt sich die Anzahl der Partitionen auf `wholeTextFiles` und` textFiles` aus?

Im Funken verstehe ich, wie man @ benutwholeTextFiles undtextFiles, aber ich bin mir nicht sicher, wann ich welche verwenden soll. Folgendes weiß ich bisher: Wenn Sie mit Dateien arbeiten, die nicht zeilenweise aufgeteilt sind, sollten Sie @ ...

4 die antwort

Wie lade ich Jar-Abhängigkeiten in IPython Notebook?

Diese Seit [https://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2#.85lrap56d] hat mich dazu inspiriert, spark-csv auszuprobieren, um CSV-Dateien in PySpark zu lesen. Ich habe ein paar Posts gefunden, wie ...

TOP-Veröffentlichungen

20 die antwort

Wie ändere ich die Namen von DataFrame-Spalten in Pyspark?

Ich komme aus Pandas Hintergrund und bin es gewohnt, Daten aus CSV-Dateien in einen Datenrahmen zu lesen und dann einfach die Spaltennamen mit dem einfachen Befehl in etwas Nützliches zu ändern: df.columns = new_column_name_listDas Gleiche gilt ...

2 die antwort

Wie speichere ich einen Spark-Datenrahmen als Textdatei ohne Zeilen in Pyspark?

Ich habe einen Datenrahmen "df" mit den Spalten ['name', 'age']. Ich habe den Datenrahmen mit @ gespeicherdf.rdd.saveAsTextFile("..") um es als rdd zu speichern. Ich habe die gespeicherte Datei geladen und collect () gibt mir das folgende ...

4 die antwort

Spark fügt dem Datenrahmen eine neue Spalte mit dem Wert aus der vorherigen Zeile hinzu

Ich frage mich, wie ich das Folgende in Spark (Pyspark) erreichen kann Initial Dataframe: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Resulting Dataframe: +--+---+-------+ |id|num|new_Col| ...

4 die antwort

PySpark 1.5 So kürzen Sie den Zeitstempel von Sekunden auf die nächste Minute

Ich benutze PySpark. Ich habe eine Spalte ('dt') in einem Datenrahmen ('canon_evt'), die dies ein Zeitstempel ist. Ich versuche, Sekunden aus einem DateTime-Wert zu entfernen. Es wird ursprünglich als String aus Parkett eingelesen. Ich versuche ...

4 die antwort

Return RDD der größten N Werte von einem anderen RDD in SPARK

Ich versuche, eine RDD von Tupeln zu filtern, um die größten N Tupel basierend auf Schlüsselwerten zurückzugeben. Ich brauche das Rückgabeformat, um ein RDD zu sein. So die RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')] gefiltert ...

6 die antwort

Flatten Nested Spark Dataframe

Gibt es eine Möglichkeit, einen beliebig verschachtelten Spark-Dataframe zu reduzieren? Die meiste Arbeit, die ich sehe, ist für ein bestimmtes Schema geschrieben, und ich möchte in der Lage sein, einen Dataframe mit ...

2 die antwort

Spark __getnewargs__ error

Ich versuche, einen Spark-DataFrame zu bereinigen, indem ich ihn RDD und dann wieder DataFrame zuordne. Hier ist ein Spielzeugbeispiel: def replace_values(row,sub_rules): d = row.asDict() for col,old_val,new_val in sub_rules: if d[col] == ...