Suchergebnisse für Anfrage "pyspark"
Maximale Zeile pro Gruppe in Spark DataFrame finden
Ich versuche, Spark-Datenrahmen anstelle von RDDs zu verwenden, da diese offenbar übergeordneter sind als RDDs und tendenziell besser lesbaren Code erzeugen. In einem Google Dataproc-Cluster mit 14 Knoten habe ich ungefähr 6 Millionen Namen, ...
Apache Spark - Weisen Sie das Ergebnis der UDF mehreren Datenrahmenspalten zu.
Ich verwende pyspark, lade eine große csv-Datei in einen Datenrahmen mit spark-csv und muss als Vorverarbeitungsschritt eine Reihe von Operationen auf die in einer der Spalten verfügbaren Daten anwenden (die eine JSON-Zeichenfolge enthalten) ). ...
Wie übergebe ich einen konstanten Wert an Python UDF?
Ich dachte, ob es möglich ist, ein @ zu erstellUDF das erhält zwei Argumente einColumn und eine andere Variable Object,Dictionary oder ein anderer Typ), führen Sie dann einige Operationen aus und geben Sie das Ergebnis zurück. Eigentlich habe ...
So konvertieren Sie Spark Streaming-Daten in Spark DataFrame
Bisher hat Spark noch keinen DataFrame für das Streaming von Daten erstellt. Wenn ich jedoch Anomalien erkenne, ist es bequemer und schneller, DataFrame für die Datenanalyse zu verwenden. Ich habe diesen Teil erledigt, aber als ich versuche, ...
Externe Bibliotheken in Pyspark-Code laden
Ich habe einen Spark-Cluster, den ich im lokalen Modus verwende. Ich möchte eine csv mit der externen Bibliothek spark.csv von databricks lesen. Ich starte meine App wie folgt: import os import sys os.environ["SPARK_HOME"] ...
spark.ml StringIndexer wirft 'Ungesehenes Label' auf fit ()
Ich bereite ein Spielzeugspark.ml Beispiel.Spark version 1.6.0, läuft aufOracle JDK version 1.8.0_65, pyspark, ipython notebook. Zunächst hat es kaum etwas mit @ zu tSpark, ML, StringIndexer: Umgang mit unsichtbaren ...
_corrupt_record Fehler beim Einlesen einer JSON-Datei in Spark
Ich habe diese JSON-Datei { "a": 1, "b": 2 }, das mit der Python-Methode json.dump ermittelt wurde. Jetzt möchte ich diese Datei mit pyspark in einen DataFrame in Spark einlesen. Nach der Dokumentation mache ich das sc = SparkContext () sqlc ...
pyspark: DataFrame in RDD konvertieren [string]
Ich würde gerne konvertierenpyspark.sql.dataframe.DataFrame zupyspark.rdd.RDD[String] Ich habe einen DataFrame konvertiertdf zu RDDdata: data = df.rdd type (data) ## pyspark.rdd.RDDdie neue RDDdata enthältRow first = data.first() type(first) ...
Umgebungsvariablen aus Python-Code für spark @ setz
Ich habe die Umgebungsvariablen in Mac OS so eingestellt, dass sie ausgeführt werdenpyspark export SPARK_HOME=/Users/devesh/Downloads/spark-1.5.1-bin-hadoop2.6 export PYTHONPATH=$SPARK_HOME/python/:$PYTHONPATH ...
Wie ein Spark-Datenrahmen zwischengespeichert und in einem anderen Skript referenziert wird
Ist es möglich, einen Datenrahmen zwischenzuspeichern und ihn dann in einem anderen Skript zu referenzieren (abzufragen)? ... Mein Ziel lautet: Erstellen Sie in Skript 1 einen Datenrahmen (df) Skript 1 ausführen und df @ zwischenspeicheragen Sie ...