Suchergebnisse für Anfrage "apache-spark"

4 die antwort

Maximale Zeile pro Gruppe in Spark DataFrame finden

Ich versuche, Spark-Datenrahmen anstelle von RDDs zu verwenden, da diese offenbar übergeordneter sind als RDDs und tendenziell besser lesbaren Code erzeugen. In einem Google Dataproc-Cluster mit 14 Knoten habe ich ungefähr 6 Millionen Namen, ...

2 die antwort

Share SparkContext zwischen Java- und R-Apps unter demselben Master

So hier ist das Setup. erzeit habe ich zwei Spark-Anwendungen initialisiert. Ich muss Daten zwischen ihnen übergeben (vorzugsweise über gemeinsam genutzten Sparkcontext / sqlcontext, damit ich nur eine temporäre Tabelle abfragen kann). Ich ...

2 die antwort

Apache Spark - Weisen Sie das Ergebnis der UDF mehreren Datenrahmenspalten zu.

Ich verwende pyspark, lade eine große csv-Datei in einen Datenrahmen mit spark-csv und muss als Vorverarbeitungsschritt eine Reihe von Operationen auf die in einer der Spalten verfügbaren Daten anwenden (die eine JSON-Zeichenfolge enthalten) ). ...

TOP-Veröffentlichungen

2 die antwort

So wählen Sie alle Spalten aus, die mit einer gemeinsamen Bezeichnung beginnen

Ich habe einen Datenrahmen in Spark 1.6 und möchte nur einige Spalten daraus auswählen. Die Spaltennamen lauten wie folgt: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2Ich weiß, dass ich auf diese Weise bestimmte Spalten auswählen ...

6 die antwort

Spark UI zeigt 0 Kerne an, auch wenn Kerne in App @ gesetzt werd

Ich habe ein seltsames Problem beim Ausführen einer Anwendung von der Spark-Master-URL, bei der die Benutzeroberfläche unbegrenzt den Status "WAITING" meldet, da in der Tabelle RUNNING APPLICATIONSs (AUSFÜHRENDE ANWENDUNGEN) 0 Kerne angezeigt ...

2 die antwort

Case Klassengleichheit in Apache Spark

Warum funktioniert die Mustererkennung in Spark nicht wie in Scala? Siehe folgendes Beispiel ... functionf() versucht, eine Musterübereinstimmung für eine Klasse durchzuführen, die in der Scala REPL funktioniert, in Spark jedoch fehlschlägt und ...

6 die antwort

Wie erstelle ich einen benutzerdefinierten Transformer aus einer UDF?

Ich habe versucht, ein @ zu erstellen und zu speicherPipelin [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.Pipeline] mit benutzerdefinierten Stufen. Ich muss ein @ hinzufügcolumn zu meinemDataFrame mit einemUDF. ...

4 die antwort

Spark: Unterschied der Semantik zwischen reduct und reductByKey

n der Dokumentation von Spark heißt es, dass die RDD-Methodereduce [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD] erfordert eine assoziative UND kommutative Binärfunktion. Allerdings ist die ...

4 die antwort

spark.ml StringIndexer wirft 'Ungesehenes Label' auf fit ()

Ich bereite ein Spielzeugspark.ml Beispiel.Spark version 1.6.0, läuft aufOracle JDK version 1.8.0_65, pyspark, ipython notebook. Zunächst hat es kaum etwas mit @ zu tSpark, ML, StringIndexer: Umgang mit unsichtbaren ...

2 die antwort

Externe Bibliotheken in Pyspark-Code laden

Ich habe einen Spark-Cluster, den ich im lokalen Modus verwende. Ich möchte eine csv mit der externen Bibliothek spark.csv von databricks lesen. Ich starte meine App wie folgt: import os import sys os.environ["SPARK_HOME"] ...