Suchergebnisse für Anfrage "apache-spark-sql"
Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id ist bereits gesetzt
Ich verwende spark 1.6 und stoße auf das obige Problem, wenn ich den folgenden Code ausführe: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import ...
Pyspark DataFrame UDF in Textspalte
Ich versuche, einige Unicode-Spalten in einem PySpark-DataFrame mit NLP-Text zu bereinigen. Ich habe es in Spark 1.3, 1.5 und 1.6 versucht und kann anscheinend nichts für mein Leben zum Laufen bringen. Ich habe auch versucht, Python 2.7 ...
Spark: Spalte bedingt zu Datenrahmen hinzufügen
Ich versuche meine Eingabedaten zu übernehmen: A B C -------------- 4 blah 2 2 3 56 foo 3Und fügen Sie am Ende eine Spalte hinzu, je nachdem, ob B leer ist oder nicht: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Ich kann dies ...
Wie erstelle ich einen Datensatz aus der benutzerdefinierten Klasse Person?
Ich habe versucht, ein @ zu erstelleDataset in Java, also schreibe ich den folgenden Code: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset ...
Apache Spark Window-Funktion mit verschachtelter Spalte
Ich bin mir nicht sicher, ob dies ein Fehler ist (oder nur eine falsche Syntax). Ich habe mich umgesehen und habe dies an keiner anderen Stelle erwähnt. Deshalb frage ich hier, bevor ich einen Fehlerbericht einreiche. Ich versuche, eine ...
Multiple Aggregate-Operationen für dieselbe Spalte eines Spark-Datenrahmens
Ich habe drei Arrays vom Typ string, die folgende Informationen enthalten: groupBy Array: Enthält die Namen der Spalten, nach denen ich meine Daten gruppieren möchte.aggregate Array: enthält Namen von Spalten, die ich aggregieren möchte.rray ...
Strip- oder Regex-Funktion in Spark 1.3 Dataframe
Ich habe einen Code aus PySpark 1.5, den ich leider rückwärts auf Spark 1.3 portieren muss. Ich habe eine Spalte mit alphanumerischen Elementen, möchte aber nur die Ziffern. Ein Beispiel für die Elemente in 'old_col' von 'df' ist: '125 Bytes' In ...
Stack Overflow beim Verarbeiten mehrerer Spalten mit einer UDF
Ich habe einDataFrame mit vielen Spalten vonstr type, und ich möchte eine Funktion auf alle diese Spalten anwenden, ohne deren Namen umzubenennen oder weitere Spalten hinzuzufügen. Ich habe versucht, ein @ zu verwendefor-in Schleife wird ...
First_value Fensterfunktion in Pyspark
Ich benutze Pyspark 1.5, um meine Daten aus Hive-Tabellen abzurufen und versuche, Fensterfunktionen zu verwenden. GemäßDie [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] gibt es eine analytische ...
Wie vermeide ich doppelte Spalten nach dem Join?
Ich habe zwei Datenrahmen mit den folgenden Spalten: df1.columns // Array(ts, id, X1, X2)un df2.columns // Array(ts, id, Y1, Y2)Nachdem ich val df_combined = df1.join(df2, Seq(ts,id))Ich lande mit den folgenden Spalten:Array(ts, id, X1, X2, ...