Suchergebnisse für Anfrage "apache-spark"

2 die antwort

So konvertieren Sie org.apache.spark.rdd.RDD [Array [Double]] in Array [Double], das von Spark MLlib benötigt wird

Ich versuche zu implementierenKMeans using Apache Spark. val data = sc.textFile(irisDatasetString) val parsedData = data.map(_.split(',').map(_.toDouble)).cache() val clusters = KMeans.train(parsedData,3,numIterations = 20)uf dem ich den ...

2 die antwort

Ressourcen / Dokumentation zur Funktionsweise des Failovers für den Spark-Treiber (und dessen YARN-Container) im Garn-Cluster-Modus

Ich versuche zu verstehen, ob der Spark-Treiber eine einzelne Fehlerquelle darstellt, wenn er im Cluster-Modus für Yarn bereitgestellt wird. Daher möchte ich die Innereien des Failover-Prozesses in Bezug auf den YARN-Container des Spark-Treibers ...

24 die antwort

Wie überspringe ich einen Header aus CSV-Dateien in Spark?

Angenommen, ich gebe drei Dateipfade zu einem Spark-Kontext zum Lesen an, und jede Datei hat ein Schema in der ersten Zeile. Wie können wir Schemazeilen aus Überschriften überspringen? val rdd=sc.textFile("file1,file2,file3")Now, wie können wir ...

TOP-Veröffentlichungen

14 die antwort

Spark-Anwendung löst javax.servlet.FilterRegistration @ a

Ich verwende Scala, um eine Spark-Anwendung lokal zu erstellen und auszuführen. Meine build.sbt: name : "SparkDemo" version : "1.0" scalaVersion : "2.10.4" libraryDependencies += "org.apache.spark" %% "spark-core" % "1.2.0" ...

4 die antwort

Addition von zwei RDDs [mllib.linalg.Vector] 's

Ich muss zwei Matrizen hinzufügen, die in zwei Dateien gespeichert sind. Der Inhalt vonlatest1.txt undlatest2.txt hat den nächsten str: 1 2 3 4 5 6 7 8 9Ich lese diese Dateien wie folgt: scala> val rows = sc.textFile(“latest1.txt”).map { line ...

4 die antwort

RDD in eine CSV schreiben

Ich habe eine RDD der Form org.apache.spark.rdd.RDD[(String, Array[String])]Ich möchte dies in eine CSV-Datei schreiben. Bitte schlagen Sie mir vor, wie das geht. enn Sie "myrdd.saveAsTextFile" aktivieren, wird die folgende Ausgabe ...

14 die antwort

Erläutern Sie die Aggregatfunktionalität in Spark

Ich suche nach einer besseren Erklärung für die Aggregatfunktionalität, die über spark in python verfügbar ist. Das Beispiel, das ich habe, ist wie folgt (mit Pyspark ab Version Spark 1.2.0) sc.parallelize([1,2,3,4]).aggregate( (0, 0), (lambda ...

4 die antwort

Wie kann ich mit Apache Spark den exakten Median berechnen?

DiesSeit [https://spark.apache.org/docs/0.7.0/api/core/spark/api/java/JavaDoubleRDD.html] enthält einige Statistikfunktionen (Mittelwert, stdev, Varianz usw.), aber keinen Median. Wie kann ich den exakten Median berechnen? Vielen Dan

12 die antwort

spark ssc.textFileStream streamt keine Dateien aus dem Verzeichnis

Ich versuche, den folgenden Code mit Eclipse (mit maven conf) mit 2 Workern auszuführen und jeder hat 2 Kerne oder ich versuche es auch mit spark-submit. public class StreamingWorkCount implements Serializable { public static void main(String[] ...

8 die antwort

scalac compile ergibt "object apache ist kein Mitglied des Pakets org"

Mein Code ist: import org.apache.spark.SparkContextEs kann im interaktiven Modus ausgeführt werden, aber wenn ich scalac zum Kompilieren verwende, wird folgende Fehlermeldung angezeigt: object apache ist kein Mitglied des Pakets org Dies ...