Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

Broadcast wird beim Verbinden von Datenrahmen in Spark 1.6 nicht gesendet

Below ist der Beispielcode, den ich ausführe. Wenn dieser Spark-Job ausgeführt wird, werden Dataframe-Joins mithilfe von sortmergejoin anstelle von broadcastjoin ausgeführt. def joinedDf (sqlContext: SQLContext, txnTable: DataFrame, ...

4 die antwort

Maximale Zeile pro Gruppe in Spark DataFrame finden

Ich versuche, Spark-Datenrahmen anstelle von RDDs zu verwenden, da diese offenbar übergeordneter sind als RDDs und tendenziell besser lesbaren Code erzeugen. In einem Google Dataproc-Cluster mit 14 Knoten habe ich ungefähr 6 Millionen Namen, ...

2 die antwort

Apache Spark - Weisen Sie das Ergebnis der UDF mehreren Datenrahmenspalten zu.

Ich verwende pyspark, lade eine große csv-Datei in einen Datenrahmen mit spark-csv und muss als Vorverarbeitungsschritt eine Reihe von Operationen auf die in einer der Spalten verfügbaren Daten anwenden (die eine JSON-Zeichenfolge enthalten) ). ...

TOP-Veröffentlichungen

2 die antwort

Share SparkContext zwischen Java- und R-Apps unter demselben Master

So hier ist das Setup. erzeit habe ich zwei Spark-Anwendungen initialisiert. Ich muss Daten zwischen ihnen übergeben (vorzugsweise über gemeinsam genutzten Sparkcontext / sqlcontext, damit ich nur eine temporäre Tabelle abfragen kann). Ich ...

6 die antwort

Spark UI zeigt 0 Kerne an, auch wenn Kerne in App @ gesetzt werd

Ich habe ein seltsames Problem beim Ausführen einer Anwendung von der Spark-Master-URL, bei der die Benutzeroberfläche unbegrenzt den Status "WAITING" meldet, da in der Tabelle RUNNING APPLICATIONSs (AUSFÜHRENDE ANWENDUNGEN) 0 Kerne angezeigt ...

2 die antwort

Wie übergebe ich einen konstanten Wert an Python UDF?

Ich dachte, ob es möglich ist, ein @ zu erstellUDF das erhält zwei Argumente einColumn und eine andere Variable Object,Dictionary oder ein anderer Typ), führen Sie dann einige Operationen aus und geben Sie das Ergebnis zurück. Eigentlich habe ...

4 die antwort

spark.ml StringIndexer wirft 'Ungesehenes Label' auf fit ()

Ich bereite ein Spielzeugspark.ml Beispiel.Spark version 1.6.0, läuft aufOracle JDK version 1.8.0_65, pyspark, ipython notebook. Zunächst hat es kaum etwas mit @ zu tSpark, ML, StringIndexer: Umgang mit unsichtbaren ...

6 die antwort

Wie erstelle ich einen benutzerdefinierten Transformer aus einer UDF?

Ich habe versucht, ein @ zu erstellen und zu speicherPipelin [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.Pipeline] mit benutzerdefinierten Stufen. Ich muss ein @ hinzufügcolumn zu meinemDataFrame mit einemUDF. ...

2 die antwort

Anwenden der Funktion auf Spark Dataframe Column

Aus R kommend bin ich es gewohnt, Operationen an Spalten einfach auszuführen. Gibt es eine einfache Möglichkeit, diese Funktion zu nutzen, die ich in scala @ geschrieben hab def round_tenths_place( un_rounded:Double ) : Double = { val rounded ...

2 die antwort

Cache-Tabellen in Apache Spark SQL

Aus dem Spark-Beamtendokumentiere [http://spark.apache.org/docs/latest/sql-programming-guide.html#caching-data-in-memory] , es sagt it @Spark SQL können Tabellen in einem speicherinternen Spaltenformat zwischengespeichert werden, indem ...