Suchergebnisse für Anfrage "apache-spark"
Maximale Zeile pro Gruppe in Spark DataFrame finden
Ich versuche, Spark-Datenrahmen anstelle von RDDs zu verwenden, da diese offenbar übergeordneter sind als RDDs und tendenziell besser lesbaren Code erzeugen. In einem Google Dataproc-Cluster mit 14 Knoten habe ich ungefähr 6 Millionen Namen, ...
Share SparkContext zwischen Java- und R-Apps unter demselben Master
So hier ist das Setup. erzeit habe ich zwei Spark-Anwendungen initialisiert. Ich muss Daten zwischen ihnen übergeben (vorzugsweise über gemeinsam genutzten Sparkcontext / sqlcontext, damit ich nur eine temporäre Tabelle abfragen kann). Ich ...
Apache Spark - Weisen Sie das Ergebnis der UDF mehreren Datenrahmenspalten zu.
Ich verwende pyspark, lade eine große csv-Datei in einen Datenrahmen mit spark-csv und muss als Vorverarbeitungsschritt eine Reihe von Operationen auf die in einer der Spalten verfügbaren Daten anwenden (die eine JSON-Zeichenfolge enthalten) ). ...
So wählen Sie alle Spalten aus, die mit einer gemeinsamen Bezeichnung beginnen
Ich habe einen Datenrahmen in Spark 1.6 und möchte nur einige Spalten daraus auswählen. Die Spaltennamen lauten wie folgt: colA, colB, colC, colD, colE, colF-0, colF-1, colF-2Ich weiß, dass ich auf diese Weise bestimmte Spalten auswählen ...
Spark UI zeigt 0 Kerne an, auch wenn Kerne in App @ gesetzt werd
Ich habe ein seltsames Problem beim Ausführen einer Anwendung von der Spark-Master-URL, bei der die Benutzeroberfläche unbegrenzt den Status "WAITING" meldet, da in der Tabelle RUNNING APPLICATIONSs (AUSFÜHRENDE ANWENDUNGEN) 0 Kerne angezeigt ...
Case Klassengleichheit in Apache Spark
Warum funktioniert die Mustererkennung in Spark nicht wie in Scala? Siehe folgendes Beispiel ... functionf() versucht, eine Musterübereinstimmung für eine Klasse durchzuführen, die in der Scala REPL funktioniert, in Spark jedoch fehlschlägt und ...
Wie erstelle ich einen benutzerdefinierten Transformer aus einer UDF?
Ich habe versucht, ein @ zu erstellen und zu speicherPipelin [https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.ml.Pipeline] mit benutzerdefinierten Stufen. Ich muss ein @ hinzufügcolumn zu meinemDataFrame mit einemUDF. ...
Spark: Unterschied der Semantik zwischen reduct und reductByKey
n der Dokumentation von Spark heißt es, dass die RDD-Methodereduce [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD] erfordert eine assoziative UND kommutative Binärfunktion. Allerdings ist die ...
spark.ml StringIndexer wirft 'Ungesehenes Label' auf fit ()
Ich bereite ein Spielzeugspark.ml Beispiel.Spark version 1.6.0, läuft aufOracle JDK version 1.8.0_65, pyspark, ipython notebook. Zunächst hat es kaum etwas mit @ zu tSpark, ML, StringIndexer: Umgang mit unsichtbaren ...
Externe Bibliotheken in Pyspark-Code laden
Ich habe einen Spark-Cluster, den ich im lokalen Modus verwende. Ich möchte eine csv mit der externen Bibliothek spark.csv von databricks lesen. Ich starte meine App wie folgt: import os import sys os.environ["SPARK_HOME"] ...