Suchergebnisse für Anfrage "apache-spark"

2 die antwort

Spark Window Functions benötigt HiveContext?

Ich versuche ein Beispiel für eine Fensterfunktion auf Funken aus diesem ...

4 die antwort

Datenrahmen nach Wert filtern, der NICHT in der Spalte eines anderen Datenrahmens vorhanden ist [duplizieren]

Diese Frage hat hier bereits eine Antwort: Filter Spark DataFrame basierend auf einem anderen DataFrame, der Blacklist-Kriterien angibt [/questions/39887526/filter-spark-dataframe-based-on-another-dataframe-that-specifies-blacklist-crite] 2 ...

2 die antwort

Das dynamische Lesen von Dateien aus HDFS in Funkentransformationsfunktionen

Wie kann eine Datei aus HDFS in einer Spark-Funktion gelesen werden, die sparkContext nicht innerhalb der Funktion verwendet? Beispiel val filedata_rdd = rdd.map { x => ReadFromHDFS(x.getFilePath) }Frage: Wie kann ReadFromHDFS implementiert ...

TOP-Veröffentlichungen

2 die antwort

Understanding Spark-Terminal-Ausgabe während Stufen [duplizieren]

Diese Frage hat hier bereits eine Antwort: Was bedeuten die Zahlen auf dem Fortschrittsbalken in Spark-Shell? [/questions/30245180/what-do-the-numbers-on-the-progress-bar-mean-in-spark-shell] 2 Antworten Ich bin neu bei Spark und versuche, die ...

2 die antwort

NLineInputFormat funktioniert nicht in Spark

Was ich möchte, ist im Grunde, dass jedes Datenelement aus 10 Zeilen besteht. Mit dem folgenden Code besteht jedes Element jedoch noch aus einer Zeile. Welchen Fehler mache ich hier? val conf = new SparkConf().setAppName("MyApp") ...

4 die antwort

Spark UDF hat mehr als einmal pro Datensatz aufgerufen, wenn DF zu viele Spalten hat

Ich verwende Spark 1.6.1 und stoße auf ein merkwürdiges Verhalten: Ich führe eine UDF mit einigen umfangreichen Berechnungen (eine Physiksimulation) für einen Datenrahmen aus, der einige Eingabedaten enthält, und erstelle ...

6 die antwort

Mit Spark-Datenrahmen auf dem Schlüssel verbinden

Ich habe zwei Datenrahmen erstellt. Wie können wir mehrere Spark-Datenrahmen verbinden? Zum Beispiel PersonDf, ProfileDf mit einer gemeinsamen Spalte alspersonId as (Schlüssel). Wie können wir nun einen Dataframe haben, der @ kombinierPersonDf ...

4 die antwort

Pyspark: Benutzerdefinierte Fensterfunktion

Ich versuche derzeit, eine Reihe aufeinanderfolgender Vorkommen in einem PySpark-Datenrahmen zu extrahieren und sie wie unten gezeigt zu ordnen / einzuordnen (der Einfachheit halber habe ich den anfänglichen Datenrahmen nach @ bestelluser_id ...

8 die antwort

Skewed Dataset Join in Spark?

Ich verbinde zwei große Datensätze mit Spark RDD. Ein Datensatz ist stark verzerrt, sodass einige der Executor-Aufgaben lange dauern, bis der Job abgeschlossen ist. Wie kann ich dieses Szenario lösen?

2 die antwort

Verwenden Sie mehr als eine collect_list in einer Abfrage in Spark SQL

Ich habe den folgenden Datenrahmendata: root |-- userId: string |-- product: string |-- rating: doubleund die folgende Abfrage: val result = sqlContext.sql("select userId, collect_list(product), collect_list(rating) from data group by ...