Suchergebnisse für Anfrage "apache-spark"

6 die antwort

Spark SPARK_PUBLIC_DNS und SPARK_LOCAL_IP auf einem eigenständigen Cluster mit Docker-Containern

Bisher habe ich Spark nur auf Linux-Computern und VMs (Bridged Networking) ausgeführt, aber jetzt bin ich daran interessiert, mehr Computer als Slaves zu verwenden. Es wäre praktisch, einen Spark Slave Docker-Container auf Computern zu verteilen ...

8 die antwort

Was läuft falsch mit `unionAll` of Spark` DataFrame`?

it Spark 1.5.0 und dem folgenden Code erwarte ich, dass unionAll unionDataFrames basierend auf ihrem Spaltennamen. Im Code verwende ich FunSuite, um SparkContext @ zu übergebesc: object Entities { case class A (a: Int, b: Int) case class B (b: ...

6 die antwort

Wie konvertiere ich ein RDD mit einer SparseVector-Spalte in einen DataFrame mit einer Spalte als Vector

Ich habe ein RDD mit einem Tupel von Werten (String, SparseVector) und ich möchte ein @ erstell DataFrame Verwendung der RDD. Um ein (label: string, features: vector) @ zu erhalt DataFrame ist das Schema, das von den meisten Bibliotheken des ...

TOP-Veröffentlichungen

4 die antwort

Konvertieren Sie eine RDD in iterable: PySpark?

Ich habe eine RDD, die ich erstelle, indem ich eine Textdatei lade und sie vorverarbeite. Ich möchte es nicht sammeln und auf der Festplatte oder im Speicher (vollständige Daten) speichern, sondern es an eine andere Funktion in Python übergeben, ...

2 die antwort

Spark Code Organisation und Best Practices [geschlossen]

achdem ich viele Jahre in einer objektorientierten Welt verbracht habe, in der die Wiederverwendung von Code, Entwurfsmuster und bewährte Methoden stets berücksichtigt wurden, habe ich in der Welt von Spark einige Probleme mit ...

6 die antwort

Wie füge ich eine konstante Spalte in einem Spark-DataFrame hinzu?

Ich möchte eine Spalte in einem @ hinzufügDataFrame mit einem beliebigen Wert (das ist für jede Zeile gleich). Ich erhalte eine Fehlermeldung, wenn ich @ benutwithColumn wie folgt dt.withColumn('new_column', ...

2 die antwort

'PipelinedRDD' Objekt hat kein Attribut 'toDF' in PySpark

Ich versuche eine SVM-Datei zu laden und in eine @ zu konvertierDataFrame damit ich das ML Modul benutzen kann Pipeline ML) von Spark. Ich habe gerade einen neuen Spark 1.5.0 auf einem Ubuntu 14.04 installiert ...

8 die antwort

So komprimieren Sie zwei (oder mehr) DataFrames in Spark

Ich habe zweiDataFrame a undb. a ist wi Column 1 | Column 2 abc | 123 cde | 23b ist wi Column 1 1 2Ich möchte @ za undb (oder noch mehr) DataFrames, die ungefähr so aussehen: Column 1 | Column 2 | Column 3 abc | 123 | 1 cde | 23 | 2Wie kann ...

8 die antwort

Spark mehrere Kontexte

Zusamenfassen : EC2 Cluster: 1 Master 3 Slaves Spark Version: 1.3.1 Ich möchte die Option @ verwend spark.driver.allowMultipleContexts, ein Kontext lokal (nur Master) und ein Cluster (Master und Slaves). Ich erhalte diesen Stacktrace-Fehler ...

4 die antwort

Wie kann ich die Einstellung von SparkContext.sparkUser () (in pyspark) ändern?

Ich bin neu beiSpark undpyspark. Ich benutze Pyspark, nach meinemrdd Verarbeitung, ich habe versucht, es zu speichernhdfs Verwendung dersaveAsTextfile() Funktion. Aber ich bekomme ein ' Zugang verweiger 'Fehlermeldung, da Pyspark versucht, @ zu ...