Suchergebnisse für Anfrage "pyspark"
Wie ersetze ich einen String-Wert in PySpark durch einen NULL-Wert?
Ich möchte so etwas machen: df.replace('empty-value', None, 'NAME')rundsätzlich möchte ich einen Wert durch NULL ersetzen. aber es akzeptiert keine in dieser Funktion. Wie kann ich das machen
Was entspricht der Scala-Fallklasse in PySpark?
Wie würden Sie vorgehen, um ein Fallklassenäquivalent in PySpark einzusetzen und / oder zu implementieren?
Wie man DataFrame mit Vektorspalten in RDD umwandelt
Ich habe einen DataFrame (mit dem Namendf1 in Pyspark, in dem eine der Spalten vom Typ @ iDenseVector. Dies ist das Schema des Datenrahmens. DataFrame[prediction: double, probability: vector, label: double] Ich versuche es mit @ in ein RDD ...
Extrahieren Sie das Datum aus einer Zeichenfolgenspalte mit dem Zeitstempel in Pyspark
Ich habe einen Datenrahmen mit einem Datum im folgenden Format: +----------------------+ |date | +----------------------+ |May 6, 2016 5:59:34 AM| +----------------------+Ich beabsichtige, das Datum im Format @ daraus zu extrahiereYYYY-MM-DD; ...
Zwei PySpark-Datenrahmen verknüpfen
Ich versuche, zwei PySpark-Datenrahmen mit einigen Spalten zu verknüpfen, die sich jeweils nur in ihnen befinden: from pyspark.sql.functions import randn, rand df_1 = sqlContext.range(0, 10) +--+ |id| +--+ | 0| | 1| | 2| | 3| | 4| | 5| | 6| | ...
Lesen von Parkettdateien aus mehreren Verzeichnissen in Pyspark
Ich muss Parkettdateien von mehreren Pfaden lesen, die keine übergeordneten oder untergeordneten Verzeichnisse sind. beispielsweise dir1 --- | ------- dir1_1 | ------- dir1_2 dir2 --- | ------- dir2_1 | ...
Wie führe ich eine Funktion für alle Spark-Worker aus, bevor ich Daten in PySpark verarbeite?
Ich führe eine Spark-Streaming-Aufgabe in einem Cluster mit YARN aus. Auf jedem Knoten im Cluster werden mehrere Spark Worker ausgeführt. Bevor das Streaming startet, möchte ich eine "Setup" -Funktion für alle Worker auf allen Knoten im Cluster ...
Parameter für implizites pyspark.ml-ALS-Matrixfaktorisierungsmodell über pyspark.ml einstellen CrossValidator
Ich versuche, die Parameter eines ALS-Matrixfaktorisierungsmodells zu optimieren, das implizite Daten verwendet. Dazu versuche ich, mit pyspark.ml.tuning.CrossValidator ein Parameterraster zu durchlaufen und das beste Modell auszuwählen. Ich ...
Filter Pyspark-Datenrahmenspalte mit dem Wert None
Ich versuche, einen PySpark-Datenrahmen mit @ zu filterNone als Zeilenwert: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), ...
Wie kann ich eine Spalte als kategoriale Funktion in einem DataFrame für die Verwendung in ml @ deklariere
Wie kann ich deklarieren, dass eine bestimmte Spalte in meinemDataFrame enthält kategoriale Informationen? Ich habe einen Spark SQLDataFrame die ich aus einer datenbank geladen habe. Viele der Spalten in diesemDataFrame haben kategoriale ...