Suchergebnisse für Anfrage "apache-spark-sql"

6 die antwort

Spark 1.6: java.lang.IllegalArgumentException: spark.sql.execution.id ist bereits gesetzt

Ich verwende spark 1.6 und stoße auf das obige Problem, wenn ich den folgenden Code ausführe: // Imports import org.apache.spark.sql.hive.HiveContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.sql.SaveMode import ...

6 die antwort

Pyspark DataFrame UDF in Textspalte

Ich versuche, einige Unicode-Spalten in einem PySpark-DataFrame mit NLP-Text zu bereinigen. Ich habe es in Spark 1.3, 1.5 und 1.6 versucht und kann anscheinend nichts für mein Leben zum Laufen bringen. Ich habe auch versucht, Python 2.7 ...

6 die antwort

Spark: Spalte bedingt zu Datenrahmen hinzufügen

Ich versuche meine Eingabedaten zu übernehmen: A B C -------------- 4 blah 2 2 3 56 foo 3Und fügen Sie am Ende eine Spalte hinzu, je nachdem, ob B leer ist oder nicht: A B C D -------------------- 4 blah 2 1 2 3 0 56 foo 3 1Ich kann dies ...

TOP-Veröffentlichungen

6 die antwort

Wie erstelle ich einen Datensatz aus der benutzerdefinierten Klasse Person?

Ich habe versucht, ein @ zu erstelleDataset in Java, also schreibe ich den folgenden Code: public Dataset createDataset(){ List<Person> list = new ArrayList<>(); list.add(new Person("name", 10, 10.0)); Dataset<Person> dateset ...

2 die antwort

Apache Spark Window-Funktion mit verschachtelter Spalte

Ich bin mir nicht sicher, ob dies ein Fehler ist (oder nur eine falsche Syntax). Ich habe mich umgesehen und habe dies an keiner anderen Stelle erwähnt. Deshalb frage ich hier, bevor ich einen Fehlerbericht einreiche. Ich versuche, eine ...

4 die antwort

Multiple Aggregate-Operationen für dieselbe Spalte eines Spark-Datenrahmens

Ich habe drei Arrays vom Typ string, die folgende Informationen enthalten: groupBy Array: Enthält die Namen der Spalten, nach denen ich meine Daten gruppieren möchte.aggregate Array: enthält Namen von Spalten, die ich aggregieren möchte.rray ...

2 die antwort

Strip- oder Regex-Funktion in Spark 1.3 Dataframe

Ich habe einen Code aus PySpark 1.5, den ich leider rückwärts auf Spark 1.3 portieren muss. Ich habe eine Spalte mit alphanumerischen Elementen, möchte aber nur die Ziffern. Ein Beispiel für die Elemente in 'old_col' von 'df' ist: '125 Bytes' In ...

2 die antwort

Stack Overflow beim Verarbeiten mehrerer Spalten mit einer UDF

Ich habe einDataFrame mit vielen Spalten vonstr type, und ich möchte eine Funktion auf alle diese Spalten anwenden, ohne deren Namen umzubenennen oder weitere Spalten hinzuzufügen. Ich habe versucht, ein @ zu verwendefor-in Schleife wird ...

2 die antwort

First_value Fensterfunktion in Pyspark

Ich benutze Pyspark 1.5, um meine Daten aus Hive-Tabellen abzurufen und versuche, Fensterfunktionen zu verwenden. GemäßDie [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] gibt es eine analytische ...

10 die antwort

Wie vermeide ich doppelte Spalten nach dem Join?

Ich habe zwei Datenrahmen mit den folgenden Spalten: df1.columns // Array(ts, id, X1, X2)un df2.columns // Array(ts, id, Y1, Y2)Nachdem ich val df_combined = df1.join(df2, Seq(ts,id))Ich lande mit den folgenden Spalten:Array(ts, id, X1, X2, ...