Suchergebnisse für Anfrage "apache-spark"
Verwenden von Pyspark, Lesen / Schreiben von 2D-Bildern auf dem Hadoop-Dateisystem
Ich möchte in der Lage sein, Bilder in einem HDFS-Dateisystem zu lesen / zu schreiben und die HDFS-Lokalität zu nutzen. Ich habe eine Sammlung von Bildern, bei denen jedes Bild aus @ besteh 2D Arrays von uint16 grundlegende zusätzliche ...
Wie kann man Matrixfaktoren in Spark ALS-Empfehlungen erweitern?
ch bin ein Anfänger in der Welt des maschinellen Lernens und der Verwendung von Apache Spar Ich habe das Tutorial unter @ ...
spark launch: find version
Meine Umgebung ist Windows 7 und Scala 2.11.4 installiert (funktioniert gut), Java 1.8 Ich habe versucht, spark-1.2.0-bin-hadoop2.4 und spark-1.2.1-bin-hadoop2.4 und jedes Mal, wenn ich bin\spark-shell.cmd Ich habe gerade den Fehler von Windows ...
Wie man gleichzeitig ausgeführte Jobs (Aktionen) in Apache Spark im Single Spark-Kontext ausführt
Es heißt in der Apache Spark-Dokumentation "in jeder Spark-Anwendung können mehrere "Jobs" (Spark-Aktionen) gleichzeitig ausgeführt werden, wenn sie von verschiedenen Threads gesendet wurdenann jemand erklären, wie diese Parallelität für den ...
CSV-Datei mit Spark laden
Ich bin neu bei Spark und versuche, mit Spark CSV-Daten aus einer Datei zu lesen. Folgendes mache ich: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Ich würde erwarten, dass dieser Aufruf mir ...
Anzahl der sichtbaren Knoten in PySpark anzeigen
Ich führe einige Vorgänge in PySpark aus und habe kürzlich die Anzahl der Knoten in meiner Konfiguration (die sich in Amazon EMR befindet) erhöht. Obwohl ich die Anzahl der Knoten verdreifacht habe (von 4 auf 12), scheint sich die Leistung nicht ...
Warum bringt foreach nichts zum Treiberprogramm?
Ich habe dieses Programm in Spark Shell geschrieben val array = sc.parallelize(List(1, 2, 3, 4)) array.foreach(x => println(x))dies gibt einige Debug-Anweisungen aus, aber nicht die tatsächlichen Zahlen. Der Code unten funktioniert gut for(num ...
Spark-Ausführungsfehler java.lang.NoClassDefFoundError: org / codehaus / jackson / annotate / JsonClass
import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import play.api.libs.json._ import java.util.Date import javax.xml.bind.DatatypeConverter object Test { def main(args:Array[String]): Unit = { val logFile="test.txt" val ...
Spark mit Python: So lösen Sie Stage x auf: Eine sehr große Aufgabe (xxx KB). Die empfohlene maximale Aufgabengröße beträgt 100 KB
Ich habe gerade eine Python-Liste von @ erstelrange(1,100000). Mit SparkContext wurden die folgenden Schritte ausgeführt: a = sc.parallelize([i for i in range(1, 100000)]) b = sc.parallelize([i for i in range(1, 100000)]) c = a.zip(b) >>> [(1, ...
Warum schlägt die Funkenanwendung mit "executor.CoarseGrainedExecutorBackend: Driver Disassociated" fehl?
Wenn ich die Abfrage sql über spark-submit und spark-sql ausführe, schlägt die entsprechende Funkenanwendung immer mit folgendem Fehler fehl: 15/03/10 18:50:52 INFO util.AkkaUtils: Connecting to ...