Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Verwenden von Pyspark, Lesen / Schreiben von 2D-Bildern auf dem Hadoop-Dateisystem

Ich möchte in der Lage sein, Bilder in einem HDFS-Dateisystem zu lesen / zu schreiben und die HDFS-Lokalität zu nutzen. Ich habe eine Sammlung von Bildern, bei denen jedes Bild aus @ besteh 2D Arrays von uint16 grundlegende zusätzliche ...

2 die antwort

Wie kann man Matrixfaktoren in Spark ALS-Empfehlungen erweitern?

ch bin ein Anfänger in der Welt des maschinellen Lernens und der Verwendung von Apache Spar Ich habe das Tutorial unter @ ...

6 die antwort

spark launch: find version

Meine Umgebung ist Windows 7 und Scala 2.11.4 installiert (funktioniert gut), Java 1.8 Ich habe versucht, spark-1.2.0-bin-hadoop2.4 und spark-1.2.1-bin-hadoop2.4 und jedes Mal, wenn ich bin\spark-shell.cmd Ich habe gerade den Fehler von Windows ...

TOP-Veröffentlichungen

2 die antwort

Wie man gleichzeitig ausgeführte Jobs (Aktionen) in Apache Spark im Single Spark-Kontext ausführt

Es heißt in der Apache Spark-Dokumentation "in jeder Spark-Anwendung können mehrere "Jobs" (Spark-Aktionen) gleichzeitig ausgeführt werden, wenn sie von verschiedenen Threads gesendet wurdenann jemand erklären, wie diese Parallelität für den ...

22 die antwort

CSV-Datei mit Spark laden

Ich bin neu bei Spark und versuche, mit Spark CSV-Daten aus einer Datei zu lesen. Folgendes mache ich: sc.textFile('file.csv') .map(lambda line: (line.split(',')[0], line.split(',')[1])) .collect() Ich würde erwarten, dass dieser Aufruf mir ...

10 die antwort

Anzahl der sichtbaren Knoten in PySpark anzeigen

Ich führe einige Vorgänge in PySpark aus und habe kürzlich die Anzahl der Knoten in meiner Konfiguration (die sich in Amazon EMR befindet) erhöht. Obwohl ich die Anzahl der Knoten verdreifacht habe (von 4 auf 12), scheint sich die Leistung nicht ...

4 die antwort

Warum bringt foreach nichts zum Treiberprogramm?

Ich habe dieses Programm in Spark Shell geschrieben val array = sc.parallelize(List(1, 2, 3, 4)) array.foreach(x => println(x))dies gibt einige Debug-Anweisungen aus, aber nicht die tatsächlichen Zahlen. Der Code unten funktioniert gut for(num ...

2 die antwort

Spark-Ausführungsfehler java.lang.NoClassDefFoundError: org / codehaus / jackson / annotate / JsonClass

import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf import play.api.libs.json._ import java.util.Date import javax.xml.bind.DatatypeConverter object Test { def main(args:Array[String]): Unit = { val logFile="test.txt" val ...

6 die antwort

Spark mit Python: So lösen Sie Stage x auf: Eine sehr große Aufgabe (xxx KB). Die empfohlene maximale Aufgabengröße beträgt 100 KB

Ich habe gerade eine Python-Liste von @ erstelrange(1,100000). Mit SparkContext wurden die folgenden Schritte ausgeführt: a = sc.parallelize([i for i in range(1, 100000)]) b = sc.parallelize([i for i in range(1, 100000)]) c = a.zip(b) >>> [(1, ...

4 die antwort

Warum schlägt die Funkenanwendung mit "executor.CoarseGrainedExecutorBackend: Driver Disassociated" fehl?

Wenn ich die Abfrage sql über spark-submit und spark-sql ausführe, schlägt die entsprechende Funkenanwendung immer mit folgendem Fehler fehl: 15/03/10 18:50:52 INFO util.AkkaUtils: Connecting to ...