Suchergebnisse für Anfrage "pyspark"
Pyspark: Ausnahme: Java-Gateway-Prozess wurde beendet, bevor dem Treiber seine Portnummer gesendet wurde
Ich versuche Pyspark auf meinem MacBook Air laufen zu lassen. Wenn ich versuche, es zu starten, erhalte ich die Fehlermeldung: Exception: Java gateway process exited before sending the driver its port number when sc = SparkContext () wird beim ...
PySpark, Schema über JSON-Datei importieren
tbschema.json sieht aus wie das [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Ich lade es mit folgendem Code >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...
Wie schreibe ich die resultierende RDD in eine CSV-Datei in Spark Python
Ich habe eine resultierende RDDlabelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Dies hat in diesem Format ausgegeben: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....] Ich möchte eine CSV-Datei mit einer ...
Zufallszahlengenerierung in PySpark
Beginnen wir mit einer einfachen Funktion, die immer eine zufällige Ganzzahl zurückgibt: import numpy as np def f(x): return np.random.randint(1000) und ein RDD mit Nullen gefüllt und mit @ abgebildf: rdd = sc.parallelize([0] * 10).map(f)Da ...
Bei der Erstellung einer globalen Liste aus einer Karte mit PySpark
Ich habe diesen Code, in dem ich eine Datei in @ lesipython usingpyspark. Was ich versuche, ist, ein Stück hinzuzufügen, das eine Liste basierend auf einer bestimmten aus der Datei gelesenen Spalte bildet, aber wenn ich versuche, sie auszuführen, ...
Wie kann die Leistung für langsame Spark-Jobs mithilfe von DataFrame- und JDBC-Verbindungen verbessert werden?
Ich versuche, über JDBC im Standalone-Modus auf einem einzelnen Knoten (lokal [*]) auf eine mittelgroße Teradata-Tabelle (~ 100 Millionen Zeilen) zuzugreifen. Ich verwende Spark 1.4.1. und ist auf einem sehr leistungsstarken Computer (2 CPUs, ...
Databricks (Spark): .egg Abhängigkeiten nicht automatisch installiert?
Ich habe ein lokal erstelltes.egg Paket, das von @ abhänboto==2.38.0. Ich habe setuptools verwendet, um die Build-Distribution zu erstellen. Alles funktioniert in meiner eigenen lokalen Umgebung, da es @ hoboto richtig vonPiP. ...
Verbinden mit S3-Daten von PySpark
Ich versuche, eine JSON-Datei von Amazon S3 zu lesen, um einen Spark-Kontext zu erstellen und zur Verarbeitung der Daten zu verwenden. Spark befindet sich im Grunde genommen in einem Docker-Container. Das Ablegen von Dateien im Docker-Pfad ist ...
wie man eine Dataframe-Spalte in pyspark @ von String-Typ in Double-Typ ände
Ich habe einen Datenrahmen mit einer Spalte als String. Ich wollte den Spaltentyp in PySpark in Double-Typ ändern. Folgen ist der Weg, den ich gemacht habe: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...
Daten von PySpark auf Redis schreiben
In Scala würden wir eine RDD an Redis schreiben, wie folgt: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Ich habe versucht, dies in ...