Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Computing Unterschied zwischen Spark DataFrames

Ich habe zweiDataFrames df1 unddf2,. Ich möchte ein drittes @ berechnDataFrame ``df3 so dassdf3 = (df1 - df2) d. h. alle Elemente in df1, aber nicht in df2. Gibt es eine eingebaute Bibliotheksfunktion, um so etwas wie @ zu erreichedf1.subtract(df2)?

8 die antwort

local class inkompatibel Ausnahme: Beim Ausführen von Spark Standalone von IDE

Ich beginne Funken zu testen. Ich habe spark auf meinem lokalen Computer installiert und einen lokalen Cluster mit einem einzelnen Worker ausgeführt. Als ich versuchte, meinen Job von meiner IDE aus auszuführen, stellte ich die sparconf wie folgt ...

2 die antwort

Anwenden von IndexToString auf den Feature-Vektor in Spark

Kontext Ich habe einen Datenrahmen, in dem alle kategorialen Werte mit StringIndexer indiziert wurden. val categoricalColumns = df.schema.collect { case StructField(name, StringType, nullable, meta) => name } val categoryIndexers = ...

TOP-Veröffentlichungen

6 die antwort

Behandlung von Kommas in einem Feld in einer CSV-Datei mit pyspark

Ich habe eine CSV-Datendatei, die Kommas innerhalb eines Spaltenwerts enthält. Beispielsweise value_1,value_2,value_3 AAA_A,BBB,B,CCC_C Hier sind die Werte "AAA_A", "BBB, B", "CCC_C". Wenn ich jedoch versuche, die Zeile durch Komma zu teilen, ...

2 die antwort

Überprüfen, ob sich ein RDD-Element in einem anderen befindet, mithilfe der Kartenfunktion

Ich bin neu bei Spark und habe mich über Schließungen gewundert. Ich habe zwei RDDs, von denen eine eine Liste mit IDs und Werten und die andere eine Liste mit ausgewählten IDs enthält. Mit einer Map möchte ich den Wert des Elements erhöhen, ...

4 die antwort

Wie ein Spark-Datenrahmen zwischengespeichert und in einem anderen Skript referenziert wird

Ist es möglich, einen Datenrahmen zwischenzuspeichern und ihn dann in einem anderen Skript zu referenzieren (abzufragen)? ... Mein Ziel lautet: Erstellen Sie in Skript 1 einen Datenrahmen (df) Skript 1 ausführen und df @ zwischenspeicheragen Sie ...

2 die antwort

erwenden Sie collect_list und collect_set in Spark SQ

Laut dem docs [http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.functions$] , dascollect_set undcollect_list -Funktionen sollten in Spark SQL verfügbar sein. Ich kann es jedoch nicht zum Laufen bringen. Ich verwende ...

2 die antwort

Wie kann ich mein Empfehlungsergebnis verbessern? Ich benutze Funken ALS implizit

Zunächst habe ich eine Verwendungshistorie der Benutzer-App. Beispielsweise user1, app1, 3 (Startzeiten) user2, app2, 2 (Startzeiten) user3, app1, 1 (Startzeiten) Ich habe grundsätzlich zwei Forderungen: Empfehlen Sie jedem Benutzer eine ...

8 die antwort

SPARK SQL - MySql-Tabelle mit DataFrames und JDBC aktualisieren

Ich versuche, mit Spark SQL DataFrames und JDBC-Verbindung einige Daten in MySql einzufügen und zu aktualisieren. Es ist mir gelungen, mit dem SaveMode.Append neue Daten einzufügen. Gibt es eine Möglichkeit, die in MySql Table bereits ...

24 die antwort

java.io.IOException: Die ausführbare Datei null \ bin \ winutils.exe konnte in den Hadoop-Binärdateien nicht gefunden werden. Funke Eclipse auf Windows 7

Ich kann kein einfaches @ ausführspark Job inScala IDE (Maven Spark-Projekt) installiert aufWindows 7 Spark Core-Abhängigkeit wurde hinzugefügt. val conf = new SparkConf().setAppName("DemoDF").setMaster("local") val sc = new SparkContext(conf) ...