Suchergebnisse für Anfrage "pyspark"

2 die antwort

Spark Lesen von Python3 Pickle als Eingabe

Meine Daten sind als Sätze von Python 3-Dateien verfügbar. Die meisten von ihnen sind Serialisierung von PandasDataFrames. Ich würde gerne Spark verwenden, da ich mehr Arbeitsspeicher und CPU benötige, die ein Computer haben kann. Außerdem ...

10 die antwort

PySpark mit IAM-Rollen für den Zugriff auf S3

Ich frage mich, ob PySpark den S3-Zugriff mithilfe von IAM-Rollen unterstützt. Insbesondere habe ich eine geschäftliche Einschränkung, bei der ich eine AWS-Rolle übernehmen muss, um auf einen bestimmten Bereich zuzugreifen. Dies ist in Ordnung, ...

2 die antwort

Wie listet man in PySpark 1.5.0 alle Elemente der Spalte `y` auf der Grundlage der Werte der Spalte` x` auf?

Die folgende Frage bezieht sich speziell auf Version 1.5.0 von PySpark, da PySpark ständig um neue Funktionen erweitert wird. Wie listest du alle Elemente der Spalte @ auy basierend auf den Werten der Spaltex? Beispielsweise rdd = ...

TOP-Veröffentlichungen

6 die antwort

Arbeiten mit jdbc jar in pyspark

Ich muss aus einer Postgres-SQL-Datenbank in Pyspark lesen. Ich weiß, dass dies zuvor gefragt wurde, wie z. B.Hie [https://stackoverflow.com/questions/29669420/not-able-to-connect-to-postgres-using-jdbc-in-pyspark-shell] , ...

8 die antwort

PySpark-Pakete importieren

Ich habe das @ heruntergeladgraphframes Paket (vonHie [http://spark-packages.org/package/graphframes/graphframes]) und auf meiner lokalen Festplatte gespeichert. Jetzt möchte ich es benutzen. Also benutze ich den folgenden ...

2 die antwort

Ist es möglich, Daten in Spark nach Gruppen zu skalieren?

Ich möchte Daten mit @ skalierStandardScaler (from pyspark.mllib.feature import StandardScaler), jetzt kann ich es tun, indem ich die Werte von RDD an die Transformationsfunktion übergebe, aber das Problem ist, dass ich den Schlüssel beibehalten ...

2 die antwort

Was ist der effizienteste Weg, um eine sortierte Reduzierung in PySpark durchzuführen?

Ich analysiere pünktliche Leistungsnachweise von US-Inlandsflügen aus dem Jahr 2015. Ich muss nach Schwanznummer gruppieren und eine nach Datum sortierte Liste aller Flüge für jede Schwanznummer in einer Datenbank speichern, um von ...

2 die antwort

pyspark mysql jdbc load Beim Aufruf von o23.load ist ein Fehler aufgetreten. Kein passender Treiber

Ich benutze Docker Image sequenceiq / spark [https://hub.docker.com/r/sequenceiq/spark/] auf meinem Mac, um diese zu studierenspark Beispiele [http://spark.apache.org/examples.html], während des Studienprozesses aktualisiere ich den Funken in ...

4 die antwort

PySpark zeilenweise Funktionszusammensetzung

Als vereinfachtes Beispiel habe ich einen Datenrahmen "df" mit den Spalten "col1, col2" und möchte nach dem Anwenden einer Funktion auf jede Spalte ein zeilenweises Maximum berechnen: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...

4 die antwort

Registrieren Sie UDF in SqlContext von Scala zur Verwendung in PySpark

Ist es möglich, eine in Scala geschriebene UDF (oder Funktion) für die Verwendung in PySpark zu registrieren? Z.B. val mytable = sc.parallelize(1 to 2).toDF("spam") mytable.registerTempTable("mytable") def addOne(m: Integer): Integer = m + 1 ...