Suchergebnisse für Anfrage "pyspark"

36 die antwort

Pyspark: Ausnahme: Java-Gateway-Prozess wurde beendet, bevor dem Treiber seine Portnummer gesendet wurde

Ich versuche Pyspark auf meinem MacBook Air laufen zu lassen. Wenn ich versuche, es zu starten, erhalte ich die Fehlermeldung: Exception: Java gateway process exited before sending the driver its port number when sc = SparkContext () wird beim ...

2 die antwort

PySpark, Schema über JSON-Datei importieren

tbschema.json sieht aus wie das [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Ich lade es mit folgendem Code >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...

6 die antwort

Wie schreibe ich die resultierende RDD in eine CSV-Datei in Spark Python

Ich habe eine resultierende RDDlabelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Dies hat in diesem Format ausgegeben: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....] Ich möchte eine CSV-Datei mit einer ...

TOP-Veröffentlichungen

4 die antwort

Zufallszahlengenerierung in PySpark

Beginnen wir mit einer einfachen Funktion, die immer eine zufällige Ganzzahl zurückgibt: import numpy as np def f(x): return np.random.randint(1000) und ein RDD mit Nullen gefüllt und mit @ abgebildf: rdd = sc.parallelize([0] * 10).map(f)Da ...

2 die antwort

Bei der Erstellung einer globalen Liste aus einer Karte mit PySpark

Ich habe diesen Code, in dem ich eine Datei in @ lesipython usingpyspark. Was ich versuche, ist, ein Stück hinzuzufügen, das eine Liste basierend auf einer bestimmten aus der Datei gelesenen Spalte bildet, aber wenn ich versuche, sie auszuführen, ...

4 die antwort

Wie kann die Leistung für langsame Spark-Jobs mithilfe von DataFrame- und JDBC-Verbindungen verbessert werden?

Ich versuche, über JDBC im Standalone-Modus auf einem einzelnen Knoten (lokal [*]) auf eine mittelgroße Teradata-Tabelle (~ 100 Millionen Zeilen) zuzugreifen. Ich verwende Spark 1.4.1. und ist auf einem sehr leistungsstarken Computer (2 CPUs, ...

2 die antwort

Databricks (Spark): .egg Abhängigkeiten nicht automatisch installiert?

Ich habe ein lokal erstelltes.egg Paket, das von @ abhänboto==2.38.0. Ich habe setuptools verwendet, um die Build-Distribution zu erstellen. Alles funktioniert in meiner eigenen lokalen Umgebung, da es @ hoboto richtig vonPiP. ...

4 die antwort

Verbinden mit S3-Daten von PySpark

Ich versuche, eine JSON-Datei von Amazon S3 zu lesen, um einen Spark-Kontext zu erstellen und zur Verarbeitung der Daten zu verwenden. Spark befindet sich im Grunde genommen in einem Docker-Container. Das Ablegen von Dateien im Docker-Pfad ist ...

8 die antwort

wie man eine Dataframe-Spalte in pyspark @ von String-Typ in Double-Typ ände

Ich habe einen Datenrahmen mit einer Spalte als String. Ich wollte den Spaltentyp in PySpark in Double-Typ ändern. Folgen ist der Weg, den ich gemacht habe: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...

2 die antwort

Daten von PySpark auf Redis schreiben

In Scala würden wir eine RDD an Redis schreiben, wie folgt: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Ich habe versucht, dies in ...