Suchergebnisse für Anfrage "pyspark"

16 die antwort

CSV abrufen, um Datenframe zu aktivieren

Ich verwende Python für Spark und möchte eine CSV in einen Datenframe einbinden. DasDokumentatio [https://spark.apache.org/docs/latest/sql-programming-guide.html#data-sources] for Spark SQL bietet seltsamerweise keine Erklärungen für CSV als ...

4 die antwort

Wie verhält sich die Option --total-executor-cores mit spark-submit?

Ich führe einen Spark-Cluster über C ++ - Code aus, der in Python eingebunden ist. Ich teste derzeit verschiedene Konfigurationen von Multithreading-Optionen (auf Python- oder Spark-Ebene). Ich verwende Spark mit eigenständigen Binärdateien ...

12 die antwort

Renaming-Spalten für Pyspark Dataframes-Aggregate

Ich analysiere einige Daten mit Pyspark-Datenrahmen. Angenommen, ich habe einen Datenrahmen.df dass ich aggregiere: df.groupBy("group")\ .agg({"money":"sum"})\ .show(100)Dies wird mir geben: group SUM(money#2L) A 137461285853 B 172185566943 C ...

TOP-Veröffentlichungen

4 die antwort

Wie führe ich mehrere Jobs in einem Sparkcontext aus separaten Threads in PySpark aus?

s wird aus der Spark-Dokumentation über @ verstandePlanung innerhalb einer Anwendung [http://spark.apache.org/docs/latest/job-scheduling.html]: In einer bestimmten Spark-Anwendung (SparkContext-Instanz) können mehrere parallele Jobs gleichzeitig ...

12 die antwort

Umformen / Schwenken von Daten in Spark RDD und / oder Spark DataFrames

Ich habe einige Daten im folgenden Format (entweder RDD oder Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...

12 die antwort

Berechnung der Dauer durch Subtraktion von zwei datetime-Spalten im Zeichenfolgenformat

Ich habe einen Spark-Datenrahmen, der aus einer Reihe von Daten besteht: from pyspark.sql import SQLContext from pyspark.sql import Row from pyspark.sql.types import * sqlContext = SQLContext(sc) import pandas as pd rdd ...

20 die antwort

Ist es möglich, die aktuellen Einstellungen für den Spark-Kontext in PySpark abzurufen?

Ich versuche, den Pfad zu @ zu bekommspark.worker.dir für das aktuellesparkcontext. Wenn ich es explizit als @ setconfig param, Ich kann es wieder aus @ lesSparkConf, aber gibt es trotzdem Zugriff auf das kompletteconfig (einschließlich aller ...

4 die antwort

Wie arbeitet Spark mit CPython zusammen?

Ich habe ein Akka-System geschrieben inscala das muss zu einigen rufenPython Code, unter Berufung aufPandas undNumpy, also kann ich nicht einfach Jython verwenden. Ich habe festgestellt, dass Spark CPython auf seinen Arbeitsknoten verwendet. ...

2 die antwort

Spark rdd schreibe in globale Liste

Wie schreibe ich mit rdd in eine globale Liste? Li = [] Fn(list): If list.value == 4: Li.append(1) rdd.mapValues(lambda x:fn(x)) Wenn ich versuche, Li zu drucken, ist das Ergebnis: [] Was ich versuche zu tun ist, eine andere globale Liste Li1 ...

2 die antwort

Wie filtere ich Dstream mit Transformationsoperation und externem RDD?

Ich benutztetransform -Methode in einem ähnlichen Anwendungsfall wie in @ beschriebTransform Operation abschnitt vonTransformations on ...