Suchergebnisse für Anfrage "pyspark"
PySpark: Ein SchemaRDD einem SchemaRDD zuordnen
Ich lade eine Datei mit JSON-Objekten als PySparkSchemaRDD. Ich möchte die "Form" der Objekte ändern (im Grunde genommen reduziere ich sie) und dann in eine Hive-Tabelle einfügen. Das Problem, das ich habe, ist, dass das folgende ein @ ...
Spark gibt beim Training mit ALS @ einen StackOverflowError a
Beim Versuch, ein Modell für maschinelles Lernen mit ALS in Spark's MLLib zu trainieren, erhielt ich weiterhin einen StackoverflowError. Hier ist ein kleines Beispiel des Stack-Trace: Traceback (most recent call last): File ...
Eine Liste als Schlüssel für PySparks reduByKey
Ich versuche, die Funktion reductByKey von pyspark für Daten des Formats @ aufzurufe(([a,b,c], 1), ([a,b,c], 1), ([a,d,b,e], 1), ... Es scheint, dass pyspark ein Array nicht als Schlüssel für den normalen Schlüssel akzeptiert. Die ...
Wie kann ein RDD mit DenseVector als Schlüssel in Spark gruppiert werden?
Ich habe eine RDD erstellt, wobei jedes Mitglied ein Schlüsselwertpaar ist und der Schlüssel ein @ isDenseVector und Wert ist einint. z.B [(DenseVector([3,4]),10), (DenseVector([3,4]),20)]etzt möchte ich nach dem Schlüssel gruppierk1: ...
Spark-Iterationszeit nimmt bei Verwendung von join @ exponentiell
Ich bin ein Neuling in Spark und versuche, einen iterativen Algorithmus für das Clustering (Erwartungsmaximierung) mit dem durch das Markov-Modell dargestellten Schwerpunkt zu implementieren. Ich muss also Iterationen und Joins durchführen. Ein ...
pyspark Untermenge von Dateien mit Regex / Glob von s3 auswählen
Ich habe eine Reihe von Dateien, die jeweils nach Datum getrennt sind(date=yyyymmdd) auf Amazon S3. Die Dateien reichen 6 Monate zurück, aber ich möchte mein Skript so einschränken, dass nur die Daten der letzten 3 Monate verwendet werden. Ich ...
Wie starte ich eine Spark-Shell mit Pyspark in Windows?
Ich bin ein Anfänger in Spark und versuche, die folgenden Anweisungen zum Initialisieren der Spark-Shell in Python mithilfe von cmd zu ...
Spark mllib sagt seltsame Zahl oder NaN voraus
Ich bin neu in Apache Spark und versuche, mithilfe der maschinellen Lernbibliothek einige Daten vorherzusagen. Mein Datensatz im Moment ist nur etwa 350 Punkte. Hier sind 7 dieser Punkte: "365","4",41401.387,5330569 ...
Spark Abfrage läuft sehr langsam
Ich habe einen Cluster auf AWS mit 2 Slaves und 1 Master. Alle Instanzen sind vom Typ m1.large. Ich verwende Spark Version 1.4. Ich vergleiche die Leistung von Funken über 4 m Daten, die von der Rotverschiebung stammen. Ich habe eine Anfrage über ...
Wie werden Dateien an den Masterknoten übergeben?
Ich habe bereits Code in Python geschrieben, um die binäre Klassifizierung zu implementieren, und ich möchte diesen Klassifizierungsprozess basierend auf verschiedenen Datendateien in meinem lokalen Computer mithilfe von ...