Suchergebnisse für Anfrage "apache-spark-sql"
Wie mache ich Left Outer Join in Spark SQL?
Ich versuche, eine linke äußere Verknüpfung in spark (1.6.2) zu erstellen, aber das funktioniert nicht. Meine SQL-Abfrage sieht folgendermaßen aus: sqlContext.sql("select t.type, t.uuid, p.uuid from symptom_type t LEFT JOIN plugin p ON t.uuid = ...
Verwenden Sie mehr als eine collect_list in einer Abfrage in Spark SQL
Ich habe den folgenden Datenrahmendata: root |-- userId: string |-- product: string |-- rating: doubleund die folgende Abfrage: val result = sqlContext.sql("select userId, collect_list(product), collect_list(rating) from data group by ...
Wie man nach einem Join mehrere Spalten in einem Pyspark Dataframe auswählt und anordnet
Ich möchte mehrere Spalten aus einem vorhandenen Datenrahmen auswählen (der nach Verknüpfungen erstellt wird) und möchte die Dateien als meine Zieltabellenstruktur sortieren. Wie geht das? Der Ansatz, den ich verwendet habe, ist unten. Hier kann ...
Scala: Spark SQL to_date (unix_timestamp) gibt NULL @ zurü
Spark Version: spark-2.0.1-bin-hadoop2.7 Scala: 2.11.8 Ich lade eine unformatierte CSV in einen DataFrame. In csv wird die Spalte zwar im Datumsformat unterstützt, sie wird jedoch als 20161025 anstatt als 2016-10-25 geschrieben. Der ...
Wie verwende ich Column.isin in Java?
Ich versuche, einen Spark-DataFrame mithilfe einer Liste in Java zu filtern. java.util.List<Long> selected = ....; DataFrame result = df.filter(df.col("something").isin(????));Das Problem ist, dassisin(...) Methode akzeptiert ScalaSeq oder ...
Spark SQL - Unterschied zwischen df.repartition und DataFrameWriter partitionBy?
Was ist der Unterschied zwischen DataFramerepartition() und DataFrameWriterpartitionBy() Methoden? Ich hoffe, beide werden verwendet, um "Daten basierend auf Datenrahmenspalte zu partitionieren"? Oder gibt es da einen Unterschied?
Wie wird SQL-Dialekt angegeben, wenn Spark-Datenrahmen aus JDBC erstellt werden?
Ich habe ein Problem beim Lesen von Daten über benutzerdefiniertes JDBC mit Spark. Wie würde ich vorgehen, um den über die JDBC-URL abgeleiteten SQL-Dialekt zu überschreiben? Die fragliche Datenbank ist vitess https: ...
Lesen von CSV-Dateien mit Feldern in Anführungszeichen, die eingebettete Kommas enthalten
Ich lese eine CSV-Datei in Pyspark wie folgt: df_raw=spark.read.option("header","true").csv(csv_path) Die Datendatei enthält jedoch Felder mit eingebetteten Kommas, die nicht als Kommas behandelt werden dürfen. Wie kann ich mit Pyspark umgehen? ...
Pyspark: Benutzerdefinierte Fensterfunktion
Ich versuche derzeit, eine Reihe aufeinanderfolgender Vorkommen in einem PySpark-Datenrahmen zu extrahieren und sie wie unten gezeigt zu ordnen / einzuordnen (der Einfachheit halber habe ich den anfänglichen Datenrahmen nach @ bestelluser_id ...