Suchergebnisse für Anfrage "apache-spark"
Spark Window Functions benötigt HiveContext?
Ich versuche ein Beispiel für eine Fensterfunktion auf Funken aus diesem ...
Datenrahmen nach Wert filtern, der NICHT in der Spalte eines anderen Datenrahmens vorhanden ist [duplizieren]
Diese Frage hat hier bereits eine Antwort: Filter Spark DataFrame basierend auf einem anderen DataFrame, der Blacklist-Kriterien angibt [/questions/39887526/filter-spark-dataframe-based-on-another-dataframe-that-specifies-blacklist-crite] 2 ...
Das dynamische Lesen von Dateien aus HDFS in Funkentransformationsfunktionen
Wie kann eine Datei aus HDFS in einer Spark-Funktion gelesen werden, die sparkContext nicht innerhalb der Funktion verwendet? Beispiel val filedata_rdd = rdd.map { x => ReadFromHDFS(x.getFilePath) }Frage: Wie kann ReadFromHDFS implementiert ...
Understanding Spark-Terminal-Ausgabe während Stufen [duplizieren]
Diese Frage hat hier bereits eine Antwort: Was bedeuten die Zahlen auf dem Fortschrittsbalken in Spark-Shell? [/questions/30245180/what-do-the-numbers-on-the-progress-bar-mean-in-spark-shell] 2 Antworten Ich bin neu bei Spark und versuche, die ...
NLineInputFormat funktioniert nicht in Spark
Was ich möchte, ist im Grunde, dass jedes Datenelement aus 10 Zeilen besteht. Mit dem folgenden Code besteht jedes Element jedoch noch aus einer Zeile. Welchen Fehler mache ich hier? val conf = new SparkConf().setAppName("MyApp") ...
Spark UDF hat mehr als einmal pro Datensatz aufgerufen, wenn DF zu viele Spalten hat
Ich verwende Spark 1.6.1 und stoße auf ein merkwürdiges Verhalten: Ich führe eine UDF mit einigen umfangreichen Berechnungen (eine Physiksimulation) für einen Datenrahmen aus, der einige Eingabedaten enthält, und erstelle ...
Mit Spark-Datenrahmen auf dem Schlüssel verbinden
Ich habe zwei Datenrahmen erstellt. Wie können wir mehrere Spark-Datenrahmen verbinden? Zum Beispiel PersonDf, ProfileDf mit einer gemeinsamen Spalte alspersonId as (Schlüssel). Wie können wir nun einen Dataframe haben, der @ kombinierPersonDf ...
Pyspark: Benutzerdefinierte Fensterfunktion
Ich versuche derzeit, eine Reihe aufeinanderfolgender Vorkommen in einem PySpark-Datenrahmen zu extrahieren und sie wie unten gezeigt zu ordnen / einzuordnen (der Einfachheit halber habe ich den anfänglichen Datenrahmen nach @ bestelluser_id ...
Skewed Dataset Join in Spark?
Ich verbinde zwei große Datensätze mit Spark RDD. Ein Datensatz ist stark verzerrt, sodass einige der Executor-Aufgaben lange dauern, bis der Job abgeschlossen ist. Wie kann ich dieses Szenario lösen?
Verwenden Sie mehr als eine collect_list in einer Abfrage in Spark SQL
Ich habe den folgenden Datenrahmendata: root |-- userId: string |-- product: string |-- rating: doubleund die folgende Abfrage: val result = sqlContext.sql("select userId, collect_list(product), collect_list(rating) from data group by ...