Suchergebnisse für Anfrage "pyspark"

6 die antwort

Wie ersetze ich einen String-Wert in PySpark durch einen NULL-Wert?

Ich möchte so etwas machen: df.replace('empty-value', None, 'NAME')rundsätzlich möchte ich einen Wert durch NULL ersetzen. aber es akzeptiert keine in dieser Funktion. Wie kann ich das machen

4 die antwort

Was entspricht der Scala-Fallklasse in PySpark?

Wie würden Sie vorgehen, um ein Fallklassenäquivalent in PySpark einzusetzen und / oder zu implementieren?

4 die antwort

Wie man DataFrame mit Vektorspalten in RDD umwandelt

Ich habe einen DataFrame (mit dem Namendf1 in Pyspark, in dem eine der Spalten vom Typ @ iDenseVector. Dies ist das Schema des Datenrahmens. DataFrame[prediction: double, probability: vector, label: double] Ich versuche es mit @ in ein RDD ...

TOP-Veröffentlichungen

2 die antwort

Extrahieren Sie das Datum aus einer Zeichenfolgenspalte mit dem Zeitstempel in Pyspark

Ich habe einen Datenrahmen mit einem Datum im folgenden Format: +----------------------+ |date | +----------------------+ |May 6, 2016 5:59:34 AM| +----------------------+Ich beabsichtige, das Datum im Format @ daraus zu extrahiereYYYY-MM-DD; ...

12 die antwort

Zwei PySpark-Datenrahmen verknüpfen

Ich versuche, zwei PySpark-Datenrahmen mit einigen Spalten zu verknüpfen, die sich jeweils nur in ihnen befinden: from pyspark.sql.functions import randn, rand df_1 = sqlContext.range(0, 10) +--+ |id| +--+ | 0| | 1| | 2| | 3| | 4| | 5| | 6| | ...

6 die antwort

Lesen von Parkettdateien aus mehreren Verzeichnissen in Pyspark

Ich muss Parkettdateien von mehreren Pfaden lesen, die keine übergeordneten oder untergeordneten Verzeichnisse sind. beispielsweise dir1 --- | ------- dir1_1 | ------- dir1_2 dir2 --- | ------- dir2_1 | ...

4 die antwort

Wie führe ich eine Funktion für alle Spark-Worker aus, bevor ich Daten in PySpark verarbeite?

Ich führe eine Spark-Streaming-Aufgabe in einem Cluster mit YARN aus. Auf jedem Knoten im Cluster werden mehrere Spark Worker ausgeführt. Bevor das Streaming startet, möchte ich eine "Setup" -Funktion für alle Worker auf allen Knoten im Cluster ...

4 die antwort

Parameter für implizites pyspark.ml-ALS-Matrixfaktorisierungsmodell über pyspark.ml einstellen CrossValidator

Ich versuche, die Parameter eines ALS-Matrixfaktorisierungsmodells zu optimieren, das implizite Daten verwendet. Dazu versuche ich, mit pyspark.ml.tuning.CrossValidator ein Parameterraster zu durchlaufen und das beste Modell auszuwählen. Ich ...

6 die antwort

Filter Pyspark-Datenrahmenspalte mit dem Wert None

Ich versuche, einen PySpark-Datenrahmen mit @ zu filterNone als Zeilenwert: df.select('dt_mvmt').distinct().collect() [Row(dt_mvmt=u'2016-03-27'), Row(dt_mvmt=u'2016-03-28'), Row(dt_mvmt=u'2016-03-29'), ...

4 die antwort

Wie kann ich eine Spalte als kategoriale Funktion in einem DataFrame für die Verwendung in ml @ deklariere

Wie kann ich deklarieren, dass eine bestimmte Spalte in meinemDataFrame enthält kategoriale Informationen? Ich habe einen Spark SQLDataFrame die ich aus einer datenbank geladen habe. Viele der Spalten in diesemDataFrame haben kategoriale ...