Suchergebnisse für Anfrage "apache-spark"
Laufen PySpark auf und IDE wie Spyder?
Ich könnte PySpark vom Terminal aus starten und alles funktioniert einwandfrei. ~/spark-1.0.0-bin-hadoop1/bin$ ./pysparkWillkommen zu ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.0.0 /_/Verwenden von ...
Was sind die Unterschiede zwischen Slices und Partitionen von RDDs?
Ich verwende die Python-API von Spark und führe Spark 0.8 aus. Ich speichere eine große RDD von Gleitkommavektoren und muss Berechnungen eines Vektors für die gesamte Menge durchführen. Gibt es einen Unterschied zwischen Slices und Partitionen ...
Wie konvertiere ich CSV-Datei in Rdd
Ich bin neu in Funken. Ich möchte einige Vorgänge für bestimmte Daten in einem CSV-Datensatz ausführen. Ich versuche, eine CSV-Datei zu lesen und in RDD zu konvertieren. Meine weiteren Operationen basieren auf der Überschrift in der ...
Kartenfunktion von RDD wird in Scala Spark nicht aufgerufen
Beim Aufrufen wird die Kartenfunktion eines RDD nicht angewendet. Es funktioniert wie erwartet für eine scala.collection.immutable.List, jedoch nicht für eine RDD. Hier ist ein Code zur Veranschaulichung: val list = List ("a" , "d" , "c" , "d") ...
So lesen Sie gz-Dateien in Spark mit wholeTextFiles
Ich habe einen Ordner, der viele kleine .gz-Dateien (komprimierte CSV-Textdateien) enthält. Ich muss sie in meinem Spark-Job lesen, aber die Sache ist, dass ich eine Verarbeitung basierend auf Informationen im Dateinamen durchführen muss. Deshalb ...
Wie implementiere ich einen benutzerdefinierten Job Listener / Tracker in Spark?
Ich habe eine Klasse wie unten, und wenn ich dies über die Befehlszeile ausführen, möchte ich den Fortschrittsstatus sehen. so etwas wie, 10% completed... 30% completed... 100% completed...Job done!Ich benutze Spark 1.0 für Garn und benutze Java ...
Festlegen der Master-Adresse für Spark-Beispiele über die Befehlszeile
HINWEIS: Der Autor sucht nach Antworten, um den Spark-Master festzulegen, wenn er entsprechende Spark-Beispiele ausführtNeinÄnderungen am Quellcode, sondern nur Optionen, die, wenn möglich, über die Befehlszeile ausgeführt werden ...
Erstellen eines großen Wörterbuchs in Pyspark
Ich versuche, das folgende Problem mit Pyspark zu lösen. Ich habe eine Datei auf hdfs im Format, das ein Speicherauszug der Nachschlagetabelle ist. key1, value1 key2, value2 ...Ich möchte dies in pyspark in das Python-Wörterbuch laden und für ...
Apache Spark: Die Anzahl der Kerne im Vergleich zur Anzahl der Executoren
Ich versuche, die Beziehung zwischen der Anzahl der Kerne und der Anzahl der Executoren zu verstehen, wenn ich einen Spark-Job auf YARN ausführe. Die Testumgebung sieht wie folgt aus: Anzahl der Datenknoten: 3Datenknoten ...
Wie wähle ich eine Reihe von Elementen in Spark RDD aus?
Ich möchte eine Reihe von Elementen in einem Spark-RDD auswählen. Ich habe beispielsweise eine RDD mit hundert Elementen und muss Elemente zwischen 60 und 80 auswählen. Wie mache ich das? Ich sehe, dass RDD eine take (i: int) -Methode hat, die ...