Suchergebnisse für Anfrage "apache-spark"

5 die antwort

So weisen Sie Elementen in einem Spark-RDD eindeutige fortlaufende Nummern zu

Ich habe einen Datensatz von(user, product, review), und wollen es in den ALS-Algorithmus von mllib einspeisen. Für den Algorithmus müssen Benutzer und Produkte Zahlen sein, während es sich bei meinen Benutzernamen und SKUs um Zeichenfolgen ...

10 die antwort

Schreiben Sie mit dem Schlüssel Spark - ein Spark-Job auf mehrere Ausgänge

Wie können Sie mit Spark in einem einzigen Job in mehrere Ausgaben schreiben, die vom Schlüssel abhängig sind? Verbunden:Schreiben Sie in mehrere Ausgaben mit der Taste Scalding Hadoop, ...

2 die antwort

java + spark: org.apache.spark.SparkException: Job abgebrochen: Task nicht serialisierbar: java.io.NotSerializableException

Ich bin neu in der Funkenbildung und habe versucht, das Beispiel JavaSparkPi.java auszuführen, es läuft gut, aber da ich dies in einem anderen Java verwenden muss, kopiere ich alle Dinge von main in eine Methode in der Klasse und versuche, das ...

TOP-Veröffentlichungen

9 die antwort

Lesen von Eingaben aus S3 in einer Spark Streaming EC2-Clusteranwendung

Ich versuche, meine Spark-Streaming-Anwendung dazu zu bringen, seine Eingaben aus einem S3-Verzeichnis zu lesen, aber ich erhalte diese Ausnahme weiterhin, nachdem ich sie mit einem Spark-Submit-Skript gestartet habe: Exception in thread "main" ...

1 die antwort

Wie kann ich es einfacher machen, mein Jar im Standalone-Modus für Spark Cluster bereitzustellen?

Ich habe einen kleinen Cluster mit 3 Maschinen und eine andere Maschine zum Entwickeln und Testen. Bei der Entwicklung habe ich gesetztSparkContext zulocal. Wenn alles in Ordnung ist, möchte ich die Jar-Datei, die ich erstellt habe, auf jedem ...

3 die antwort

Verwenden von reductByKey in Apache Spark (Scala)

Ich habe eine Liste von Tupeln des Typs: (Benutzer-ID, Name, Anzahl). Zum Beispiel, val x = sc.parallelize(List( ("a", "b", 1), ("a", "b", 1), ("c", "b", 1), ("a", "d", 1)) )Ich versuche, diese Auflistung auf einen Typ zu reduzieren, bei ...

1 die antwort

Schreiben und Lesen von Raw-Byte-Arrays in Spark mithilfe der Sequenzdatei SequenceFile

Wie schreibst duRDD[Array[Byte]] zu einer Datei mit Apache Spark und lesen Sie es wieder zurück?

3 die antwort

Wie kann der Wert in Spark's RDD effizient aktualisiert werden?

Ich schreibe ein grafisches Programm inScala mitSpark. Das Dataset hat 4 Millionen Knoten und 4 Millionen Kanten (Sie können dies als Baum behandeln), aber für jedes Mal (anIteration) Bearbeite ich nur einen Teil davon, nämlich einen Teilbaum, ...

1 die antwort

Wie kann Spark Streaming seine Ausgabe schreiben, damit Impala sie lesen kann?

Ich habe das folgende Problem mit Spark Streaming API. Momentan streame ich Eingabedaten über Flume zu Spark Streaming, mit dem ich die Daten vorverarbeiten möchte. Dann möchte ich die Daten in Hadoops Dateisystem speichern und mit Impala ...

5 die antwort

So ändern Sie den Speicher pro Knoten für Apache Spark Worker

Ich konfiguriere einen Apache Spark-Cluster. Wenn ich den Cluster mit 1 Master und 3 Slaves ausführe, wird dies auf der Master-Monitorseite angezeigt: Memory 2.0 GB (512.0 MB Used) 2.0 GB (512.0 MB Used) 6.0 GB (512.0 MB Used)Ich möchte den ...