Suchergebnisse für Anfrage "apache-spark"

4 die antwort

Laufen PySpark auf und IDE wie Spyder?

Ich könnte PySpark vom Terminal aus starten und alles funktioniert einwandfrei. ~/spark-1.0.0-bin-hadoop1/bin$ ./pysparkWillkommen zu ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 1.0.0 /_/Verwenden von ...

2 die antwort

Was sind die Unterschiede zwischen Slices und Partitionen von RDDs?

Ich verwende die Python-API von Spark und führe Spark 0.8 aus. Ich speichere eine große RDD von Gleitkommavektoren und muss Berechnungen eines Vektors für die gesamte Menge durchführen. Gibt es einen Unterschied zwischen Slices und Partitionen ...

12 die antwort

Wie konvertiere ich CSV-Datei in Rdd

Ich bin neu in Funken. Ich möchte einige Vorgänge für bestimmte Daten in einem CSV-Datensatz ausführen. Ich versuche, eine CSV-Datei zu lesen und in RDD zu konvertieren. Meine weiteren Operationen basieren auf der Überschrift in der ...

TOP-Veröffentlichungen

1 die antwort

Kartenfunktion von RDD wird in Scala Spark nicht aufgerufen

Beim Aufrufen wird die Kartenfunktion eines RDD nicht angewendet. Es funktioniert wie erwartet für eine scala.collection.immutable.List, jedoch nicht für eine RDD. Hier ist ein Code zur Veranschaulichung: val list = List ("a" , "d" , "c" , "d") ...

2 die antwort

So lesen Sie gz-Dateien in Spark mit wholeTextFiles

Ich habe einen Ordner, der viele kleine .gz-Dateien (komprimierte CSV-Textdateien) enthält. Ich muss sie in meinem Spark-Job lesen, aber die Sache ist, dass ich eine Verarbeitung basierend auf Informationen im Dateinamen durchführen muss. Deshalb ...

3 die antwort

Wie implementiere ich einen benutzerdefinierten Job Listener / Tracker in Spark?

Ich habe eine Klasse wie unten, und wenn ich dies über die Befehlszeile ausführen, möchte ich den Fortschrittsstatus sehen. so etwas wie, 10% completed... 30% completed... 100% completed...Job done!Ich benutze Spark 1.0 für Garn und benutze Java ...

5 die antwort

Festlegen der Master-Adresse für Spark-Beispiele über die Befehlszeile

HINWEIS: Der Autor sucht nach Antworten, um den Spark-Master festzulegen, wenn er entsprechende Spark-Beispiele ausführtNeinÄnderungen am Quellcode, sondern nur Optionen, die, wenn möglich, über die Befehlszeile ausgeführt werden ...

2 die antwort

Erstellen eines großen Wörterbuchs in Pyspark

Ich versuche, das folgende Problem mit Pyspark zu lösen. Ich habe eine Datei auf hdfs im Format, das ein Speicherauszug der Nachschlagetabelle ist. key1, value1 key2, value2 ...Ich möchte dies in pyspark in das Python-Wörterbuch laden und für ...

8 die antwort

Apache Spark: Die Anzahl der Kerne im Vergleich zur Anzahl der Executoren

Ich versuche, die Beziehung zwischen der Anzahl der Kerne und der Anzahl der Executoren zu verstehen, wenn ich einen Spark-Job auf YARN ausführe. Die Testumgebung sieht wie folgt aus: Anzahl der Datenknoten: 3Datenknoten ...

4 die antwort

Wie wähle ich eine Reihe von Elementen in Spark RDD aus?

Ich möchte eine Reihe von Elementen in einem Spark-RDD auswählen. Ich habe beispielsweise eine RDD mit hundert Elementen und muss Elemente zwischen 60 und 80 auswählen. Wie mache ich das? Ich sehe, dass RDD eine take (i: int) -Methode hat, die ...