Suchergebnisse für Anfrage "apache-spark"
So konvertieren Sie org.apache.spark.rdd.RDD [Array [Double]] in Array [Double], das von Spark MLlib benötigt wird
Ich versuche zu implementierenKMeans using Apache Spark. val data = sc.textFile(irisDatasetString) val parsedData = data.map(_.split(',').map(_.toDouble)).cache() val clusters = KMeans.train(parsedData,3,numIterations = 20)uf dem ich den ...
Ressourcen / Dokumentation zur Funktionsweise des Failovers für den Spark-Treiber (und dessen YARN-Container) im Garn-Cluster-Modus
Ich versuche zu verstehen, ob der Spark-Treiber eine einzelne Fehlerquelle darstellt, wenn er im Cluster-Modus für Yarn bereitgestellt wird. Daher möchte ich die Innereien des Failover-Prozesses in Bezug auf den YARN-Container des Spark-Treibers ...
Wie überspringe ich einen Header aus CSV-Dateien in Spark?
Angenommen, ich gebe drei Dateipfade zu einem Spark-Kontext zum Lesen an, und jede Datei hat ein Schema in der ersten Zeile. Wie können wir Schemazeilen aus Überschriften überspringen? val rdd=sc.textFile("file1,file2,file3")Now, wie können wir ...
Spark-Anwendung löst javax.servlet.FilterRegistration @ a
Ich verwende Scala, um eine Spark-Anwendung lokal zu erstellen und auszuführen. Meine build.sbt: name : "SparkDemo" version : "1.0" scalaVersion : "2.10.4" libraryDependencies += "org.apache.spark" %% "spark-core" % "1.2.0" ...
Addition von zwei RDDs [mllib.linalg.Vector] 's
Ich muss zwei Matrizen hinzufügen, die in zwei Dateien gespeichert sind. Der Inhalt vonlatest1.txt undlatest2.txt hat den nächsten str: 1 2 3 4 5 6 7 8 9Ich lese diese Dateien wie folgt: scala> val rows = sc.textFile(“latest1.txt”).map { line ...
RDD in eine CSV schreiben
Ich habe eine RDD der Form org.apache.spark.rdd.RDD[(String, Array[String])]Ich möchte dies in eine CSV-Datei schreiben. Bitte schlagen Sie mir vor, wie das geht. enn Sie "myrdd.saveAsTextFile" aktivieren, wird die folgende Ausgabe ...
Erläutern Sie die Aggregatfunktionalität in Spark
Ich suche nach einer besseren Erklärung für die Aggregatfunktionalität, die über spark in python verfügbar ist. Das Beispiel, das ich habe, ist wie folgt (mit Pyspark ab Version Spark 1.2.0) sc.parallelize([1,2,3,4]).aggregate( (0, 0), (lambda ...
Wie kann ich mit Apache Spark den exakten Median berechnen?
DiesSeit [https://spark.apache.org/docs/0.7.0/api/core/spark/api/java/JavaDoubleRDD.html] enthält einige Statistikfunktionen (Mittelwert, stdev, Varianz usw.), aber keinen Median. Wie kann ich den exakten Median berechnen? Vielen Dan
spark ssc.textFileStream streamt keine Dateien aus dem Verzeichnis
Ich versuche, den folgenden Code mit Eclipse (mit maven conf) mit 2 Workern auszuführen und jeder hat 2 Kerne oder ich versuche es auch mit spark-submit. public class StreamingWorkCount implements Serializable { public static void main(String[] ...
scalac compile ergibt "object apache ist kein Mitglied des Pakets org"
Mein Code ist: import org.apache.spark.SparkContextEs kann im interaktiven Modus ausgeführt werden, aber wenn ich scalac zum Kompilieren verwende, wird folgende Fehlermeldung angezeigt: object apache ist kein Mitglied des Pakets org Dies ...