Suchergebnisse für Anfrage "pyspark"
Wie mache ich Left Outer Join in Spark SQL?
Ich versuche, eine linke äußere Verknüpfung in spark (1.6.2) zu erstellen, aber das funktioniert nicht. Meine SQL-Abfrage sieht folgendermaßen aus: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = ...
Umformen / Schwenken von Daten in Spark RDD und / oder Spark DataFrames
Ich habe einige Daten im folgenden Format (entweder RDD oder Spark DataFrame): from pyspark.sql import SQLContext sqlContext = SQLContext(sc) rdd = sc.parallelize([('X01',41,'US',3), ('X01',41,'UK',1), ('X01',41,'CA',2), ('X02',72,'US',4), ...
VectorAssembler nur an DenseVector ausgeben?
Die Funktion von VectorAssembler ist sehr ärgerlich. Momentan transformiere ich eine Reihe von Spalten in eine einzelne Spalte von Vektoren und wende dann die StandardScaler-Funktion an, um die Skalierung auf die enthaltenen Features anzuwenden. ...
Wie kann man den Bereitstellungsmodus der PySpark-Anwendung kennen?
Ich versuche, ein Problem mit zu wenig Arbeitsspeicher zu beheben, und möchte wissen, ob ich diese Einstellungen in der Standardkonfigurationsdatei ändern muss spark-defaults.conf) im Spark-Ausgangsordner. Oder, wenn ich sie im Code einstellen ...
Zufallszahlengenerierung in PySpark
Beginnen wir mit einer einfachen Funktion, die immer eine zufällige Ganzzahl zurückgibt: import numpy as np def f(x): return np.random.randint(1000) und ein RDD mit Nullen gefüllt und mit @ abgebildf: rdd = sc.parallelize([0] * 10).map(f)Da ...
PySpark Konvertieren einer Spalte vom Typ "Map" in mehrere Spalten in einem Datenrahmen
EinganIch habe eine SpalteParameters vom Typmap des Formulars: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...
Wie arbeitet Spark mit CPython zusammen?
Ich habe ein Akka-System geschrieben inscala das muss zu einigen rufenPython Code, unter Berufung aufPandas undNumpy, also kann ich nicht einfach Jython verwenden. Ich habe festgestellt, dass Spark CPython auf seinen Arbeitsknoten verwendet. ...
Wie schreibe ich die resultierende RDD in eine CSV-Datei in Spark Python
Ich habe eine resultierende RDDlabelsAndPredictions = testData.map(lambda lp: lp.label).zip(predictions). Dies hat in diesem Format ausgegeben: [(0.0, 0.08482142857142858), (0.0, 0.11442786069651742),.....] Ich möchte eine CSV-Datei mit einer ...
Spark-Fehler: Erwartete Nullargumente für die Erstellung von ClassDict (für numpy.core.multiarray._reconstruct)
Ich habe einen Datenrahmen in Spark, in dem eine der Spalten ein Array enthält. Jetzt habe ich eine separate UDF geschrieben, die das Array in ein anderes Array mit unterschiedlichen Werten konvertiert. Siehe folgendes Beispiel: Ex: ...
Leere Partitionen aus Spark RDD entfernen
Ich rufe Daten von HDFS ab und speichere sie in einem Spark-RDD. Spark erstellt die Anzahl der Partitionen basierend auf der Anzahl der HDFS-Blöcke. Dies führt zu einer großen Anzahl leerer Partitionen, die auch während der ...