Suchergebnisse für Anfrage "pyspark"

18 die antwort

Reduzieren Sie mit Apache Spark ein Schlüsselwertpaar in ein Schlüssellistenpaar

Ich schreibe eine Spark-Anwendung und möchte eine Reihe von Schlüssel-Wert-Paaren kombinieren(K, V1), (K, V2), ..., (K, Vn) in ein Schlüssel-Mehrwert-Paar(K, [V1, V2, ..., Vn]). Ich habe das Gefühl, ich sollte dies mit dem @ tun könnreduceByKey ...

20 die antwort

Wie ändere ich die Namen von DataFrame-Spalten in Pyspark?

Ich komme aus Pandas Hintergrund und bin es gewohnt, Daten aus CSV-Dateien in einen Datenrahmen zu lesen und dann einfach die Spaltennamen mit dem einfachen Befehl in etwas Nützliches zu ändern: df.columns = new_column_name_listDas Gleiche gilt ...

4 die antwort

Was bedeutet die Ausnahme: Die Zufälligkeit des Hashs von Strings sollte im Pyspark über PYTHONHASHSEED deaktiviert werden?

Ich versuche, ein Wörterbuch aus einer Liste in Pyspark zu erstellen. Ich habe die folgende Liste von Listen: rawPositions Gibt [[1009794, 'LPF6 Comdty', 'BC22', 'Enterprise', 3.0, 3904.125, 390412.5], [1009794, 'LPF6 Comdty', 'BC22', ...

TOP-Veröffentlichungen

6 die antwort

Wie konvertiere ich ein RDD mit einer SparseVector-Spalte in einen DataFrame mit einer Spalte als Vector

Ich habe ein RDD mit einem Tupel von Werten (String, SparseVector) und ich möchte ein @ erstell DataFrame Verwendung der RDD. Um ein (label: string, features: vector) @ zu erhalt DataFrame ist das Schema, das von den meisten Bibliotheken des ...

8 die antwort

Rename geschwenkte und aggregierte Spalte in PySpark Dataframe

Mit einem Datenrahmen wie folgt: from pyspark.sql.functions import avg, first rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", ...

4 die antwort

Aufteilen komplexer Zeilen von Datenrahmen in einfache Zeilen in Pyspark

Ich habe diesen Code: from pyspark import SparkContext from pyspark.sql import SQLContext, Row sc = SparkContext() sqlContext = SQLContext(sc) documents = sqlContext.createDataFrame([ Row(id=1, title=[Row(value=u'cars', max_dist=1000)]), ...

2 die antwort

Strip- oder Regex-Funktion in Spark 1.3 Dataframe

Ich habe einen Code aus PySpark 1.5, den ich leider rückwärts auf Spark 1.3 portieren muss. Ich habe eine Spalte mit alphanumerischen Elementen, möchte aber nur die Ziffern. Ein Beispiel für die Elemente in 'old_col' von 'df' ist: '125 Bytes' In ...

2 die antwort

Wie speichere ich einen Spark-Datenrahmen als Textdatei ohne Zeilen in Pyspark?

Ich habe einen Datenrahmen "df" mit den Spalten ['name', 'age']. Ich habe den Datenrahmen mit @ gespeicherdf.rdd.saveAsTextFile("..") um es als rdd zu speichern. Ich habe die gespeicherte Datei geladen und collect () gibt mir das folgende ...

2 die antwort

submit .py-Skript für Spark ohne Hadoop-Installation

Ich habe das folgende einfache Wordcount-Python-Skript. from pyspark import SparkConf, SparkContext conf = SparkConf().setMaster("local").setAppName("My App") sc = SparkContext(conf = conf) from operator import add ...

4 die antwort

PySpark Auswertung

Ich versuche den folgenden Code, der jeder Zeile in einer RDD eine Nummer hinzufügt und mit PySpark eine Liste von RDDs zurückgibt. from pyspark.context import SparkContext file = "file:///home/sree/code/scrap/sample.txt" sc = ...