Suchergebnisse für Anfrage "apache-spark"
Spark scala: SELECT in einer foreach-Schleife gibt java.lang.NullPointerException @ zurü
Ich muss den Inhalt eines DF mit verschiedenen SELECT-Anweisungen in einer foreach-Schleife durchlaufen und die Ausgabe in Textdateien schreiben. Jede SELECT-Anweisung in der foreach-Schleife gibt eine NullPointerException zurück. Ich kann nicht ...
Wie verwende ich Funktionen, die von der DataFrameNaFunctions-Klasse in Spark für einen DataFrame bereitgestellt werden?
Ich habe einen Datenrahmen und möchte einen der @ verwendeersetzen( Die Funktion vonorg.apache.spark.sql.DataFrameNaFunctions auf diesem Datenrahmen. Problem Ich erhalte diese Methoden in Intelligenz (Vorschlägen) mit der Instanz von DataFrame ...
Spark Build Custom Column Function, benutzerdefinierte Funktion
Ich verwende Scala und möchte meine eigene DataFrame-Funktion erstellen. Zum Beispiel möchte ich eine Spalte wie ein Array behandeln, jedes Element durchlaufen und eine Berechnung durchführen. Zu Beginn versuche ich, meine eigene getMax-Methode ...
Registrieren Sie UDF in SqlContext von Scala zur Verwendung in PySpark
Ist es möglich, eine in Scala geschriebene UDF (oder Funktion) für die Verwendung in PySpark zu registrieren? Z.B. val mytable = sc.parallelize(1 to 2).toDF("spam") mytable.registerTempTable("mytable") def addOne(m: Integer): Integer = m + 1 ...
PySpark zeilenweise Funktionszusammensetzung
Als vereinfachtes Beispiel habe ich einen Datenrahmen "df" mit den Spalten "col1, col2" und möchte nach dem Anwenden einer Funktion auf jede Spalte ein zeilenweises Maximum berechnen: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...
pyspark EOFError nach Aufruf von map
Ich bin neu in Funken & Pyspark. Ich lese eine kleine csv-Datei (~ 40k) in einen Datenrahmen. from pyspark.sql import functions as F df ...
MC-Stan bei Spark?
ch hoffe, @ verwend MC-Stan [http://mc-stan.org/] aufFunk [http://spark.apache.org/], aber anscheinend gibt es keine verwandte Seite, die von Google durchsucht wurde. Ich frage mich, ob dieser Ansatz bei Spark überhaupt möglich ist, daher ...
Summenoperation auf PySpark DataFrame, die TypeError ausgibt, wenn der Typ in Ordnung ist
Ich habe einen solchen DataFrame in PySpark (dies ist das Ergebnis einer Einstellung (3), der DataFrame ist sehr groß): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]das GleicheInhabe ...
DataFrame in RDD konvertieren [Map] in Scala
Ich möchte ein Array konvertieren, das wie folgt erstellt wurde: case class Student(name: String, age: Int) val dataFrame: DataFrame = sql.createDataFrame(sql.sparkContext.parallelize(List(Student("Torcuato", 27), Student("Rosalinda", 34))))Wenn ...
Wie erreicht Spark Parallelität innerhalb einer Task auf Multi-Core- oder Hyper-Thread-Maschinen?
Ich habe gelesen und versucht zu verstehen, wie das Spark-Framework seine Kerne in @ verwendeEigenständig mode. Laut Spark-Dokumentation ist der Parameter " spark.task.cpuser Wert von "@" ist standardmäßig auf 1 festgelegt. Dies bedeutet, dass ...