Suchergebnisse für Anfrage "apache-spark"

4 die antwort

Verwenden von groupBy in Spark und Zurückkehren zu einem DataFrame

Ich habe Probleme beim Arbeiten mit Datenrahmen in Spark mit Scala. Wenn ich einen Datenrahmen habe, aus dem ich eine Spalte eindeutiger Einträge extrahieren möchte, verwende ichgroupBy Ich erhalte keinen Datenrahmen zurück. Zum Beispiel habe ...

12 die antwort

Eine RDD initialisieren, um @ zu leer

Ich habe ein RDD namens JavaPairRDD<String, List<String>> existingRDD; Jetzt muss ich dieses @ initialisierexistingRDD zu leeren, so dass ich eine Union mit diesem @ machen kann, wenn ich die tatsächlichen Rdd's bekomexistingRDD. Wie ...

4 die antwort

Apache Spark löst NullPointerException aus, wenn ein fehlendes Feature gefunden wird

Ich habe ein bizarres Problem mit PySpark beim Indizieren von Stringspalten in Features. Hier ist meine tmp.csv-Datei: x0,x1,x2,x3 asd2s,1e1e,1.1,0 asd2s,1e1e,0.1,0 ,1e3e,1.2,0 bd34t,1e1e,5.1,1 asd2s,1e3e,0.2,0 bd34t,1e2e,4.3,1 wo ich einen ...

TOP-Veröffentlichungen

2 die antwort

Wie füge ich einen Spark-Datenrahmen am unteren Rand eines anderen Datenrahmens hinzu?

Ich kann nutzenwithcolumn, um einem Datenrahmen neue Spalten hinzuzufügen. Aber wie kann ich in Scala einem DataFrame neue Zeilen hinzufügen? Ich versuche, einem anderen Datenrahmen einen Datenrahmen hinzuzufügen. Entweder wie man Zeilen in ...

2 die antwort

Matrix-Multiplikation in Apache Spark [geschlossen]

ch versuche, eine Matrixmultiplikation mit Apache Spark und Java durchzuführe Ich habe 2 Hauptfragen: Wie erstelle ich ein RDD, das eine Matrix in Apache Spark darstellen kann?Wie multipliziere ich zwei solche RDDs?

2 die antwort

Probleme beim Ausführen mehrerer Abfragen mit Spark und HiveSQL

Ich hoffe, jemand kann mir bei diesem Problem helfen. In der Spark-Shell, wo, wenn ich so etwas versuche: var sqlContext = new org.apache.spark.sql.hive.HiveContext(sc) var query = "select * from myDB.table limit 10; drop table if exists" var ...

10 die antwort

Spark ExecutorLostFailure

Ich versuche, Spark 1.5 auf Mesos im Cluster-Modus auszuführen. Ich kann den Dispatcher starten und den Spark-Submit ausführen. Aber wenn ich das tue, versagt der Funkentreiber mit folgendem: I1111 16:21:33.515130 25325 fetcher.cpp:414] Fetcher ...

6 die antwort

Was ist der Unterschied zwischen Apache Spark SQLContext und HiveContext?

Was sind die Unterschiede zwischen Apache Spark SQLContext und HiveContext? Einige Quellen sagen, dass Entwickler, da der HiveContext eine Obermenge von SQLContext ist, immer HiveContext verwenden sollten, das mehr Funktionen als SQLContext ...

2 die antwort

Bypass erste Zeile jeder Datei in Spark (Scala)

Ich verarbeite einen S3-Ordner mit csv.gz-Dateien in Spark. Jede csv.gz-Datei enthält eine Kopfzeile mit Spaltennamen. Die Art und Weise, wie ich die enthaltenen Daten in Spark lade, besteht darin, auf den Pfad / Ordner zu verweisen: val rdd = ...

2 die antwort

gib TopN aller Gruppen nach Gruppe mit Spark DataFrame

Ich habe einen Spark SQL DataFrame: user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 ...Wie nach Benutzer gruppieren und dann @ zurückgebTopN Elemente aus jeder Gruppe, die Scala verwendet? Ähnlichkeitscode mit ...