Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Spark scala: SELECT in einer foreach-Schleife gibt java.lang.NullPointerException @ zurü

Ich muss den Inhalt eines DF mit verschiedenen SELECT-Anweisungen in einer foreach-Schleife durchlaufen und die Ausgabe in Textdateien schreiben. Jede SELECT-Anweisung in der foreach-Schleife gibt eine NullPointerException zurück. Ich kann nicht ...

2 die antwort

Wie verwende ich Funktionen, die von der DataFrameNaFunctions-Klasse in Spark für einen DataFrame bereitgestellt werden?

Ich habe einen Datenrahmen und möchte einen der @ verwendeersetzen( Die Funktion vonorg.apache.spark.sql.DataFrameNaFunctions auf diesem Datenrahmen. Problem Ich erhalte diese Methoden in Intelligenz (Vorschlägen) mit der Instanz von DataFrame ...

4 die antwort

Spark Build Custom Column Function, benutzerdefinierte Funktion

Ich verwende Scala und möchte meine eigene DataFrame-Funktion erstellen. Zum Beispiel möchte ich eine Spalte wie ein Array behandeln, jedes Element durchlaufen und eine Berechnung durchführen. Zu Beginn versuche ich, meine eigene getMax-Methode ...

TOP-Veröffentlichungen

4 die antwort

Registrieren Sie UDF in SqlContext von Scala zur Verwendung in PySpark

Ist es möglich, eine in Scala geschriebene UDF (oder Funktion) für die Verwendung in PySpark zu registrieren? Z.B. val mytable = sc.parallelize(1 to 2).toDF("spam") mytable.registerTempTable("mytable") def addOne(m: Integer): Integer = m + 1 ...

4 die antwort

PySpark zeilenweise Funktionszusammensetzung

Als vereinfachtes Beispiel habe ich einen Datenrahmen "df" mit den Spalten "col1, col2" und möchte nach dem Anwenden einer Funktion auf jede Spalte ein zeilenweises Maximum berechnen: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...

4 die antwort

pyspark EOFError nach Aufruf von map

Ich bin neu in Funken & Pyspark. Ich lese eine kleine csv-Datei (~ 40k) in einen Datenrahmen. from pyspark.sql import functions as F df ...

2 die antwort

MC-Stan bei Spark?

ch hoffe, @ verwend MC-Stan [http://mc-stan.org/] aufFunk [http://spark.apache.org/], aber anscheinend gibt es keine verwandte Seite, die von Google durchsucht wurde. Ich frage mich, ob dieser Ansatz bei Spark überhaupt möglich ist, daher ...

2 die antwort

Summenoperation auf PySpark DataFrame, die TypeError ausgibt, wenn der Typ in Ordnung ist

Ich habe einen solchen DataFrame in PySpark (dies ist das Ergebnis einer Einstellung (3), der DataFrame ist sehr groß): sc = SparkContext() df = [Row(owner=u'u1', a_d=0.1), Row(owner=u'u2', a_d=0.0), Row(owner=u'u1', a_d=0.3)]das GleicheInhabe ...

2 die antwort

DataFrame in RDD konvertieren [Map] in Scala

Ich möchte ein Array konvertieren, das wie folgt erstellt wurde: case class Student(name: String, age: Int) val dataFrame: DataFrame = sql.createDataFrame(sql.sparkContext.parallelize(List(Student("Torcuato", 27), Student("Rosalinda", 34))))Wenn ...

2 die antwort

Wie erreicht Spark Parallelität innerhalb einer Task auf Multi-Core- oder Hyper-Thread-Maschinen?

Ich habe gelesen und versucht zu verstehen, wie das Spark-Framework seine Kerne in @ verwendeEigenständig mode. Laut Spark-Dokumentation ist der Parameter " spark.task.cpuser Wert von "@" ist standardmäßig auf 1 festgelegt. Dies bedeutet, dass ...