Suchergebnisse für Anfrage "pyspark"
Behandlung von Kommas in einem Feld in einer CSV-Datei mit pyspark
Ich habe eine CSV-Datendatei, die Kommas innerhalb eines Spaltenwerts enthält. Beispielsweise value_1,value_2,value_3 AAA_A,BBB,B,CCC_C Hier sind die Werte "AAA_A", "BBB, B", "CCC_C". Wenn ich jedoch versuche, die Zeile durch Komma zu teilen, ...
So stellen Sie fest, ob das Objekt ein gültiges Schlüssel-Wert-Paar in PySpark ist
Wie verstehe ich, dass die Daten im Format "Schlüssel: Wert" vorliegen, wenn ich eine Festplatte besitze? Gibt es eine Möglichkeit, das Gleiche zu finden? So etwas wie type (object) gibt Auskunft über den Typ eines Objekts. Ich habe ...
So klassifizieren Sie Bilder mit Spark und Caffe
ch verwende Caffe, um Bilder zu klassifizieren. Kann ich MAC OS X, Pyhton, verwende Im Moment weiß ich, wie ich mit Caffe mit Spark Python eine Liste von Bildern klassifizieren kann, aber wenn ich es schneller machen möchte, möchte ich ...
So schließen Sie mehrere Spalten in Spark-Datenrahmen in Python aus
Ich habe festgestellt, dass PySpark eine Methode namens @ hadrop aber es scheint, dass es nur eine Spalte auf einmal fallen lassen kann. Irgendwelche Ideen, wie Sie mehrere Spalten gleichzeitig löschen können? df.drop(['col1','col2']) TypeError ...
Filtern eines Pyspark DataFrame mit einer SQL-ähnlichen IN-Klausel
Ich möchte einen Pyspark DataFrame mit einem SQL-ähnlichen @ filterIN -Klausel, wie in sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')woa ist das Tupel(1, 2, 3). Ich erhalte folgenden Fehler: ...
Überschreiben einer Funkenausgabe mit pyspark
Ich versuche, einen Spark-Datenrahmen mit der folgenden Option in PySpark zu überschreiben, aber ich bin nicht erfolgreich spark_df.write.format('com.databricks.spark.csv').option("header", "true",mode='overwrite').save(self.output_file_path) ...
Wrapping eine Java-Funktion in Pyspark
Ich versuche eine benutzerdefinierte Aggregatfunktion zu erstellen, die ich von Python aus aufrufen kann. Ich habe versucht, der Antwort auf @ zu ...
Zeppelin: Scala Dataframe zu Python
Wenn ich einen Scala-Absatz mit einem DataFrame habe, kann ich diesen mit Python teilen und verwenden. (Wie ich es verstehe, verwendet pyspark py4j [https://www.py4j.org/advanced_topics.html#array]) Ich habe es versucht: Scala ...
Anzahl der Partitionen in RDD und Leistung in Spark
In Pyspark kann ich eine RDD aus einer Liste erstellen und entscheiden, wie viele Partitionen vorhanden sein sollen: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)Wie wirkt sich die Anzahl der Partitionen, die ich für die Partitionierung ...
VectorAssembler nur an DenseVector ausgeben?
Die Funktion von VectorAssembler ist sehr ärgerlich. Momentan transformiere ich eine Reihe von Spalten in eine einzelne Spalte von Vektoren und wende dann die StandardScaler-Funktion an, um die Skalierung auf die enthaltenen Features anzuwenden. ...