Suchergebnisse für Anfrage "pyspark"
CSV abrufen, um Datenframe zu aktivieren
Ich verwende Python für Spark und möchte eine CSV in einen Datenframe einbinden. DasDokumentatio [https://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources] for Spark SQL bietet seltsamerweise keine Erklärungen für CSV als ...
Wie verhält sich die Option --total-executor-cores mit spark-submit?
Ich führe einen Spark-Cluster über C ++ - Code aus, der in Python eingebunden ist. Ich teste derzeit verschiedene Konfigurationen von Multithreading-Optionen (auf Python- oder Spark-Ebene). Ich verwende Spark mit eigenständigen Binärdateien ...
Renaming-Spalten für Pyspark Dataframes-Aggregate
Ich analysiere einige Daten mit Pyspark-Datenrahmen. Angenommen, ich habe einen Datenrahmen.df dass ich aggregiere: df.groupBy("group")\ .agg({"money":"sum"})\ .show(100)Dies wird mir geben: group SUM(money#2L) A 137461285853 B 172185566943 C ...
Wie führe ich mehrere Jobs in einem Sparkcontext aus separaten Threads in PySpark aus?
s wird aus der Spark-Dokumentation über @ verstandePlanung innerhalb einer Anwendung [http://spark.apache.org/docs/latest/job-scheduling.html]: In einer bestimmten Spark-Anwendung (SparkContext-Instanz) können mehrere parallele Jobs gleichzeitig ...
Umformen / Schwenken von Daten in Spark RDD und / oder Spark DataFrames
Ich habe einige Daten im folgenden Format (entweder RDD oder Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...
Berechnung der Dauer durch Subtraktion von zwei datetime-Spalten im Zeichenfolgenformat
Ich habe einen Spark-Datenrahmen, der aus einer Reihe von Daten besteht: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...
Ist es möglich, die aktuellen Einstellungen für den Spark-Kontext in PySpark abzurufen?
Ich versuche, den Pfad zu @ zu bekommspark.worker.dir für das aktuellesparkcontext. Wenn ich es explizit als @ setconfig param, Ich kann es wieder aus @ lesSparkConf, aber gibt es trotzdem Zugriff auf das kompletteconfig (einschließlich aller ...
Wie arbeitet Spark mit CPython zusammen?
Ich habe ein Akka-System geschrieben inscala das muss zu einigen rufenPython Code, unter Berufung aufPandas undNumpy, also kann ich nicht einfach Jython verwenden. Ich habe festgestellt, dass Spark CPython auf seinen Arbeitsknoten verwendet. ...
Spark rdd schreibe in globale Liste
Wie schreibe ich mit rdd in eine globale Liste? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Wenn ich versuche, Li zu drucken, ist das Ergebnis: [] Was ich versuche zu tun ist, eine andere globale Liste Li1 ...
Wie filtere ich Dstream mit Transformationsoperation und externem RDD?
Ich benutztetransform -Methode in einem ähnlichen Anwendungsfall wie in @ beschriebTransform Operation abschnitt vonTransformations on ...