Suchergebnisse für Anfrage "apache-spark"

12 die antwort

Wie füge ich Spark DataFrame eine persistente Spalte mit Zeilen-IDs hinzu?

Diese Frage ist nicht neu, aber ich finde überraschendes Verhalten in Spark. Ich muss einem DataFrame eine Spalte mit Zeilen-IDs hinzufügen. Ich habe die DataFrame-Methode monotonically_increasing_id () verwendet, und es gibt mir eine zusätzliche ...

6 die antwort

Umwandlung einer Vektorspalte in einem Datenrahmen zurück in eine Arrayspalte

Ich habe einen Datenrahmen mit zwei Spalten, von denen eine (dist genannt) ein dichter Vektor ist. Wie kann ich es wieder in eine Array-Spalte mit ganzen Zahlen konvertieren. +---+-----+ | id| dist| +---+-----+ |1.0|[2.0]| |2.0|[4.0]| ...

4 die antwort

So schließen Sie mehrere Spalten in Spark-Datenrahmen in Python aus

Ich habe festgestellt, dass PySpark eine Methode namens @ hadrop aber es scheint, dass es nur eine Spalte auf einmal fallen lassen kann. Irgendwelche Ideen, wie Sie mehrere Spalten gleichzeitig löschen können? df.drop(['col1','col2']) TypeError ...

TOP-Veröffentlichungen

4 die antwort

Scala Rückgabewert berechnet in foreach

Ich bin neu neu beiscala und Funken und versuchen, ein paar grundlegende Dinge hier draußen zu verstehen. Spark Version verwendet 1.5. Warum wird der Wert von sum nicht in der Foreach-Schleife aktualisiert. var sum=1; ...

4 die antwort

Überschreiben einer Funkenausgabe mit pyspark

Ich versuche, einen Spark-Datenrahmen mit der folgenden Option in PySpark zu überschreiben, aber ich bin nicht erfolgreich spark_df.write.format('com.databricks.spark.csv').option("header", "true",mode='overwrite').save(self.output_file_path) ...

10 die antwort

Spark: Überprüfen Sie Ihre Cluster-Benutzeroberfläche, um sicherzustellen, dass Mitarbeiter registriert sind.

Ich habe ein einfaches Programm in Spark: /* SimpleApp.scala */ import org.apache.spark.SparkContext import org.apache.spark.SparkContext._ import org.apache.spark.SparkConf object SimpleApp { def main(args: Array[String]) { val conf = ...

2 die antwort

Filter Spark DataFrame für String enthält

Ich benutzeSpark 1.3.0 [http://spark.apache.org/releases/spark-release-1-3-0.html] undSpark Avro 1.0.0 [https://github.com/databricks/spark-avro/tree/c5612df9b1a9768689fec91655faa2a7073fd9fc#spark-sql-avro-library] . Ich arbeite vondas Beispiel ...

2 die antwort

Zeppelin: Scala Dataframe zu Python

Wenn ich einen Scala-Absatz mit einem DataFrame habe, kann ich diesen mit Python teilen und verwenden. (Wie ich es verstehe, verwendet pyspark py4j [https://www.py4j.org/advanced_topics.html#array]) Ich habe es versucht: Scala ...

4 die antwort

Anzahl der Partitionen in RDD und Leistung in Spark

In Pyspark kann ich eine RDD aus einer Liste erstellen und entscheiden, wie viele Partitionen vorhanden sein sollen: sc = SparkContext() sc.parallelize(xrange(0, 10), 4)Wie wirkt sich die Anzahl der Partitionen, die ich für die Partitionierung ...

8 die antwort

Filtern eines Pyspark DataFrame mit einer SQL-ähnlichen IN-Klausel

Ich möchte einen Pyspark DataFrame mit einem SQL-ähnlichen @ filterIN -Klausel, wie in sc = SparkContext() sqlc = SQLContext(sc) df = sqlc.sql('SELECT * from my_df WHERE field1 IN a')woa ist das Tupel(1, 2, 3). Ich erhalte folgenden Fehler: ...