Suchergebnisse für Anfrage "apache-spark"
So weisen Sie Elementen in einem Spark-RDD eindeutige fortlaufende Nummern zu
Ich habe einen Datensatz von(user, product, review), und wollen es in den ALS-Algorithmus von mllib einspeisen. Für den Algorithmus müssen Benutzer und Produkte Zahlen sein, während es sich bei meinen Benutzernamen und SKUs um Zeichenfolgen ...
Schreiben Sie mit dem Schlüssel Spark - ein Spark-Job auf mehrere Ausgänge
Wie können Sie mit Spark in einem einzigen Job in mehrere Ausgaben schreiben, die vom Schlüssel abhängig sind? Verbunden:Schreiben Sie in mehrere Ausgaben mit der Taste Scalding Hadoop, ...
java + spark: org.apache.spark.SparkException: Job abgebrochen: Task nicht serialisierbar: java.io.NotSerializableException
Ich bin neu in der Funkenbildung und habe versucht, das Beispiel JavaSparkPi.java auszuführen, es läuft gut, aber da ich dies in einem anderen Java verwenden muss, kopiere ich alle Dinge von main in eine Methode in der Klasse und versuche, das ...
Lesen von Eingaben aus S3 in einer Spark Streaming EC2-Clusteranwendung
Ich versuche, meine Spark-Streaming-Anwendung dazu zu bringen, seine Eingaben aus einem S3-Verzeichnis zu lesen, aber ich erhalte diese Ausnahme weiterhin, nachdem ich sie mit einem Spark-Submit-Skript gestartet habe: Exception in thread "main" ...
Wie kann ich es einfacher machen, mein Jar im Standalone-Modus für Spark Cluster bereitzustellen?
Ich habe einen kleinen Cluster mit 3 Maschinen und eine andere Maschine zum Entwickeln und Testen. Bei der Entwicklung habe ich gesetztSparkContext zulocal. Wenn alles in Ordnung ist, möchte ich die Jar-Datei, die ich erstellt habe, auf jedem ...
Verwenden von reductByKey in Apache Spark (Scala)
Ich habe eine Liste von Tupeln des Typs: (Benutzer-ID, Name, Anzahl). Zum Beispiel, val x = sc.parallelize(List( ("a", "b", 1), ("a", "b", 1), ("c", "b", 1), ("a", "d", 1)) )Ich versuche, diese Auflistung auf einen Typ zu reduzieren, bei ...
Schreiben und Lesen von Raw-Byte-Arrays in Spark mithilfe der Sequenzdatei SequenceFile
Wie schreibst duRDD[Array[Byte]] zu einer Datei mit Apache Spark und lesen Sie es wieder zurück?
Wie kann der Wert in Spark's RDD effizient aktualisiert werden?
Ich schreibe ein grafisches Programm inScala mitSpark. Das Dataset hat 4 Millionen Knoten und 4 Millionen Kanten (Sie können dies als Baum behandeln), aber für jedes Mal (anIteration) Bearbeite ich nur einen Teil davon, nämlich einen Teilbaum, ...
Wie kann Spark Streaming seine Ausgabe schreiben, damit Impala sie lesen kann?
Ich habe das folgende Problem mit Spark Streaming API. Momentan streame ich Eingabedaten über Flume zu Spark Streaming, mit dem ich die Daten vorverarbeiten möchte. Dann möchte ich die Daten in Hadoops Dateisystem speichern und mit Impala ...
So ändern Sie den Speicher pro Knoten für Apache Spark Worker
Ich konfiguriere einen Apache Spark-Cluster. Wenn ich den Cluster mit 1 Master und 3 Slaves ausführe, wird dies auf der Master-Monitorseite angezeigt: Memory 2.0 GB (512.0 MB Used) 2.0 GB (512.0 MB Used) 6.0 GB (512.0 MB Used)Ich möchte den ...