Suchergebnisse für Anfrage "pyspark"
Wie werden RDDs aufgelistet, die in der Spark-Shell definiert sind?
In beiden "Spark-Shell" - oder "Pyspark" -Shells habe ich viele RDDs erstellt, aber ich konnte in meiner aktuellen Sitzung von Spark Shell keine Möglichkeit finden, alle verfügbaren RDDs aufzuliste
Wie wirkt sich die Anzahl der Partitionen auf `wholeTextFiles` und` textFiles` aus?
Im Funken verstehe ich, wie man @ benutwholeTextFiles undtextFiles, aber ich bin mir nicht sicher, wann ich welche verwenden soll. Folgendes weiß ich bisher: Wenn Sie mit Dateien arbeiten, die nicht zeilenweise aufgeteilt sind, sollten Sie @ ...
Wie lade ich Jar-Abhängigkeiten in IPython Notebook?
Diese Seit [https://medium.com/@chris_bour/6-differences-between-pandas-and-spark-dataframes-1380cec394d2#.85lrap56d] hat mich dazu inspiriert, spark-csv auszuprobieren, um CSV-Dateien in PySpark zu lesen. Ich habe ein paar Posts gefunden, wie ...
Wie ändere ich die Namen von DataFrame-Spalten in Pyspark?
Ich komme aus Pandas Hintergrund und bin es gewohnt, Daten aus CSV-Dateien in einen Datenrahmen zu lesen und dann einfach die Spaltennamen mit dem einfachen Befehl in etwas Nützliches zu ändern: df.columns = new_column_name_listDas Gleiche gilt ...
Wie speichere ich einen Spark-Datenrahmen als Textdatei ohne Zeilen in Pyspark?
Ich habe einen Datenrahmen "df" mit den Spalten ['name', 'age']. Ich habe den Datenrahmen mit @ gespeicherdf.rdd.saveAsTextFile("..") um es als rdd zu speichern. Ich habe die gespeicherte Datei geladen und collect () gibt mir das folgende ...
Spark fügt dem Datenrahmen eine neue Spalte mit dem Wert aus der vorherigen Zeile hinzu
Ich frage mich, wie ich das Folgende in Spark (Pyspark) erreichen kann Initial Dataframe: +--+---+ |id|num| +--+---+ |4 |9.0| +--+---+ |3 |7.0| +--+---+ |2 |3.0| +--+---+ |1 |5.0| +--+---+Resulting Dataframe: +--+---+-------+ |id|num|new_Col| ...
PySpark 1.5 So kürzen Sie den Zeitstempel von Sekunden auf die nächste Minute
Ich benutze PySpark. Ich habe eine Spalte ('dt') in einem Datenrahmen ('canon_evt'), die dies ein Zeitstempel ist. Ich versuche, Sekunden aus einem DateTime-Wert zu entfernen. Es wird ursprünglich als String aus Parkett eingelesen. Ich versuche ...
Return RDD der größten N Werte von einem anderen RDD in SPARK
Ich versuche, eine RDD von Tupeln zu filtern, um die größten N Tupel basierend auf Schlüsselwerten zurückzugeben. Ich brauche das Rückgabeformat, um ein RDD zu sein. So die RDD: [(4, 'a'), (12, 'e'), (2, 'u'), (49, 'y'), (6, 'p')] gefiltert ...
Flatten Nested Spark Dataframe
Gibt es eine Möglichkeit, einen beliebig verschachtelten Spark-Dataframe zu reduzieren? Die meiste Arbeit, die ich sehe, ist für ein bestimmtes Schema geschrieben, und ich möchte in der Lage sein, einen Dataframe mit ...
Spark __getnewargs__ error
Ich versuche, einen Spark-DataFrame zu bereinigen, indem ich ihn RDD und dann wieder DataFrame zuordne. Hier ist ein Spielzeugbeispiel: def replace_values(row,sub_rules): d = row.asDict() for col,old_val,new_val in sub_rules: if d[col] == ...