Suchergebnisse für Anfrage "pyspark"

4 die antwort

Maximale Zeile pro Gruppe in Spark DataFrame finden

Ich versuche, Spark-Datenrahmen anstelle von RDDs zu verwenden, da diese offenbar übergeordneter sind als RDDs und tendenziell besser lesbaren Code erzeugen. In einem Google Dataproc-Cluster mit 14 Knoten habe ich ungefähr 6 Millionen Namen, ...

2 die antwort

Apache Spark - Weisen Sie das Ergebnis der UDF mehreren Datenrahmenspalten zu.

Ich verwende pyspark, lade eine große csv-Datei in einen Datenrahmen mit spark-csv und muss als Vorverarbeitungsschritt eine Reihe von Operationen auf die in einer der Spalten verfügbaren Daten anwenden (die eine JSON-Zeichenfolge enthalten) ). ...

2 die antwort

Wie übergebe ich einen konstanten Wert an Python UDF?

Ich dachte, ob es möglich ist, ein @ zu erstellUDF das erhält zwei Argumente einColumn und eine andere Variable Object,Dictionary oder ein anderer Typ), führen Sie dann einige Operationen aus und geben Sie das Ergebnis zurück. Eigentlich habe ...

TOP-Veröffentlichungen

12 die antwort

So konvertieren Sie Spark Streaming-Daten in Spark DataFrame

Bisher hat Spark noch keinen DataFrame für das Streaming von Daten erstellt. Wenn ich jedoch Anomalien erkenne, ist es bequemer und schneller, DataFrame für die Datenanalyse zu verwenden. Ich habe diesen Teil erledigt, aber als ich versuche, ...

2 die antwort

Externe Bibliotheken in Pyspark-Code laden

Ich habe einen Spark-Cluster, den ich im lokalen Modus verwende. Ich möchte eine csv mit der externen Bibliothek spark.csv von databricks lesen. Ich starte meine App wie folgt: import os import sys os.environ["SPARK_HOME"] ...

4 die antwort

spark.ml StringIndexer wirft 'Ungesehenes Label' auf fit ()

Ich bereite ein Spielzeugspark.ml Beispiel.Spark version 1.6.0, läuft aufOracle JDK version 1.8.0_65, pyspark, ipython notebook. Zunächst hat es kaum etwas mit @ zu tSpark, ML, StringIndexer: Umgang mit unsichtbaren ...

8 die antwort

_corrupt_record Fehler beim Einlesen einer JSON-Datei in Spark

Ich habe diese JSON-Datei { "a": 1, "b": 2 }, das mit der Python-Methode json.dump ermittelt wurde. Jetzt möchte ich diese Datei mit pyspark in einen DataFrame in Spark einlesen. Nach der Dokumentation mache ich das sc = SparkContext () sqlc ...

2 die antwort

pyspark: DataFrame in RDD konvertieren [string]

Ich würde gerne konvertierenpyspark.sql.dataframe.DataFrame zupyspark.rdd.RDD[String] Ich habe einen DataFrame konvertiertdf zu RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDdie neue RDDdata enthältRow first = data.first() type(first) ...

2 die antwort

Umgebungsvariablen aus Python-Code für spark @ setz

Ich habe die Umgebungsvariablen in Mac OS so eingestellt, dass sie ausgeführt werdenpyspark export SPARK_HOME=/Users/devesh/Downloads/spark-1.5.1-bin-hadoop2.6 export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH ...

4 die antwort

Wie ein Spark-Datenrahmen zwischengespeichert und in einem anderen Skript referenziert wird

Ist es möglich, einen Datenrahmen zwischenzuspeichern und ihn dann in einem anderen Skript zu referenzieren (abzufragen)? ... Mein Ziel lautet: Erstellen Sie in Skript 1 einen Datenrahmen (df) Skript 1 ausführen und df @ zwischenspeicheragen Sie ...