Suchergebnisse für Anfrage "pyspark"

Pyspark: Ausnahme: Java-Gateway-Prozess wurde beendet, bevor dem Treiber seine Portnummer gesendet wurde

Ich versuche Pyspark auf meinem MacBook Air laufen zu lassen. Wenn ich versuche, es zu starten, erhalte ich die Fehlermeldung: Exception: Java gateway process exited before sending the driver its port number when sc = SparkContext () wird beim ...

apache-spark python json apache-spark-sql

2 die antwort

PySpark, Schema über JSON-Datei importieren

tbschema.json sieht aus wie das [{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]Ich lade es mit folgendem Code >>> df2 = sqlContext.jsonFile("tbschema.json") >>> ...

csv python apache-spark file-writing

6 die antwort

Wie schreibe ich die resultierende RDD in eine CSV-Datei in Spark Python

Ich habe eine resultierende RDDlabelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Dies hat in diesem Format ausgegeben: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....] Ich möchte eine CSV-Datei mit einer ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

python apache-spark rdd random

4 die antwort

Zufallszahlengenerierung in PySpark

Beginnen wir mit einer einfachen Funktion, die immer eine zufällige Ganzzahl zurückgibt: import numpy as np def f(x): return np.random.randint(1000) und ein RDD mit Nullen gefüllt und mit @ abgebildf: rdd = sc.parallelize([0] * 10).map(f)Da ...

python apache-spark

2 die antwort

Bei der Erstellung einer globalen Liste aus einer Karte mit PySpark

Ich habe diesen Code, in dem ich eine Datei in @ lesipython usingpyspark. Was ich versuche, ist, ein Stück hinzuzufügen, das eine Liste basierend auf einer bestimmten aus der Datei gelesenen Spalte bildet, aber wenn ich versuche, sie auszuführen, ...

teradata apache-spark spark-dataframe

4 die antwort

Wie kann die Leistung für langsame Spark-Jobs mithilfe von DataFrame- und JDBC-Verbindungen verbessert werden?

Ich versuche, über JDBC im Standalone-Modus auf einem einzelnen Knoten (lokal [*]) auf eine mittelgroße Teradata-Tabelle (~ 100 Millionen Zeilen) zuzugreifen. Ich verwende Spark 1.4.1. und ist auf einem sehr leistungsstarken Computer (2 CPUs, ...

dependencies python egg apache-spark

2 die antwort

Databricks (Spark): .egg Abhängigkeiten nicht automatisch installiert?

Ich habe ein lokal erstelltes.egg Paket, das von @ abhänboto==2.38.0. Ich habe setuptools verwendet, um die Build-Distribution zu erstellen. Alles funktioniert in meiner eigenen lokalen Umgebung, da es @ hoboto richtig vonPiP. ...

python apache-spark hadoop amazon-s3

4 die antwort

Verbinden mit S3-Daten von PySpark

Ich versuche, eine JSON-Datei von Amazon S3 zu lesen, um einen Spark-Kontext zu erstellen und zur Verarbeitung der Daten zu verwenden. Spark befindet sich im Grunde genommen in einem Docker-Container. Das Ablegen von Dateien im Docker-Pfad ist ...

apache-spark apache-spark-sql dataframe python

8 die antwort

wie man eine Dataframe-Spalte in pyspark @ von String-Typ in Double-Typ ände

Ich habe einen Datenrahmen mit einer Spalte als String. Ich wollte den Spaltentyp in PySpark in Double-Typ ändern. Folgen ist der Weg, den ich gemacht habe: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...

python apache-spark

2 die antwort

Daten von PySpark auf Redis schreiben

In Scala würden wir eine RDD an Redis schreiben, wie folgt: datardd.foreachPartition(iter => { val r = new RedisClient("hosturl", 6379) iter.foreach(i => { val (str, it) = i val map = it.toMap r.hmset(str, map) }) }) Ich habe versucht, dies in ...

Seite 6 von 27

4 567 8

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "pyspark"

Beliebte Schlagwörter

TOP-Veröffentlichungen