Suchergebnisse für Anfrage "apache-spark"
Wie füge ich Spark DataFrame eine persistente Spalte mit Zeilen-IDs hinzu?
Diese Frage ist nicht neu, aber ich finde überraschendes Verhalten in Spark. Ich muss einem DataFrame eine Spalte mit Zeilen-IDs hinzufügen. Ich habe die DataFrame-Methode monotonically_increasing_id () verwendet, und es gibt mir eine zusätzliche ...
Umwandlung einer Vektorspalte in einem Datenrahmen zurück in eine Arrayspalte
Ich habe einen Datenrahmen mit zwei Spalten, von denen eine (dist genannt) ein dichter Vektor ist. Wie kann ich es wieder in eine Array-Spalte mit ganzen Zahlen konvertieren. +---+-----+ | id| dist| +---+-----+ |1.0|[2.0]| |2.0|[4.0]| ...
So schließen Sie mehrere Spalten in Spark-Datenrahmen in Python aus
Ich habe festgestellt, dass PySpark eine Methode namens @ hadrop aber es scheint, dass es nur eine Spalte auf einmal fallen lassen kann. Irgendwelche Ideen, wie Sie mehrere Spalten gleichzeitig löschen können? df.drop(['col1','col2']) TypeError ...
Scala Rückgabewert berechnet in foreach
Ich bin neu neu beiscala und Funken und versuchen, ein paar grundlegende Dinge hier draußen zu verstehen. Spark Version verwendet 1.5. Warum wird der Wert von sum nicht in der Foreach-Schleife aktualisiert. var sum=1; ...
Überschreiben einer Funkenausgabe mit pyspark
Ich versuche, einen Spark-Datenrahmen mit der folgenden Option in PySpark zu überschreiben, aber ich bin nicht erfolgreich spark_df.write.format('com.databricks.spark.csv').option("header", "true",mode='overwrite').save(self.output_file_path) ...
Spark: Überprüfen Sie Ihre Cluster-Benutzeroberfläche, um sicherzustellen, dass Mitarbeiter registriert sind.
Ich habe ein einfaches Programm in Spark: /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val conf = ...
Filter Spark DataFrame für String enthält
Ich benutzeSpark 1.3.0 [http://spark.apache.org/releases/spark-release-1-3-0.html] undSpark Avro 1.0.0 [https://github.com/databricks/spark-avro/tree/c5612df9b1a9768689fec91655faa2a7073fd9fc#spark-sql-avro-library] . Ich arbeite vondas Beispiel ...
Zeppelin: Scala Dataframe zu Python
Wenn ich einen Scala-Absatz mit einem DataFrame habe, kann ich diesen mit Python teilen und verwenden. (Wie ich es verstehe, verwendet pyspark py4j [https://www.py4j.org/advanced_topics.html#array]) Ich habe es versucht: Scala ...
Anzahl der Partitionen in RDD und Leistung in Spark
In Pyspark kann ich eine RDD aus einer Liste erstellen und entscheiden, wie viele Partitionen vorhanden sein sollen: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)Wie wirkt sich die Anzahl der Partitionen, die ich für die Partitionierung ...
Filtern eines Pyspark DataFrame mit einer SQL-ähnlichen IN-Klausel
Ich möchte einen Pyspark DataFrame mit einem SQL-ähnlichen @ filterIN -Klausel, wie in sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')woa ist das Tupel(1, 2, 3). Ich erhalte folgenden Fehler: ...