Suchergebnisse für Anfrage "apache-spark-sql"

2 die antwort

Wie implementiere ich eine Like-Bedingung in SparkSQL?

Wie schreibe ich eine SQL-Anweisung, um das Ziel wie folgt zu erreichen: SELECT * FROM table t WHERE t.a LIKE '%'||t.b||'%';Vielen Dank

2 die antwort

PySpark: Durchschnitt einer Spalte nach Verwendung der Filterfunktion

Ich verwende den folgenden Code, um das Durchschnittsalter von Personen zu ermitteln, deren Gehalt einen bestimmten Schwellenwert überschreitet. dataframe.filter(df['salary'] > 100000).agg({"avg": "age"})das Spaltenalter ist numerisch (float), ...

2 die antwort

SparkSQL - Lag-Funktion?

Ich sehe in diesemDataBricks post [https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html] , in SparkSql werden Fensterfunktionen unterstützt, insbesondere versuche ich, die Fensterfunktion lag () zu verwenden. Ich ...

TOP-Veröffentlichungen

2 die antwort

Funktioniert Spark-Prädikat-Pushdown mit JDBC?

GemäßDie [https://databricks.com/blog/2015/02/17/introducing-dataframes-in-spark-for-large-scale-data-science.html] Catalyst wendet logische Optimierungen an, z. B. das Pushdown von Vergleichselementen. Das Optimierungsprogramm kann ...

2 die antwort

Speichern / Exportieren von transformiertem DataFrame zurück nach JDBC / MySQL

Ich versuche herauszufinden, wie man das neue @ benutDataFrameWriter, um Daten zurück in eine JDBC-Datenbank zu schreiben. Ich kann anscheinend keine Dokumentation dafür finden, obwohl es im Quellcode so aussieht, als ob es möglich wäre. Ein ...

2 die antwort

Wie filtere ich einen Spark-Datenrahmen gegen einen anderen Datenrahmen?

Ich versuche, einen Datenrahmen gegen einen anderen zu filtern: scala> val df1 = sc.parallelize((1 to 100).map(a=>(s"user $a", a*0.123, a))).toDF("name", "score", "user_id") scala> val df2 = sc.parallelize(List(2,3,4,5,6)).toDF("valid_id")Now ...

2 die antwort

Create Spark DataFrame. Schema für Typ kann nicht abgeleitet werden: <Typ 'float'>

Kann mir jemand bei der Lösung dieses Problems mit Spark DataFrame helfen? Wann mache ichmyFloatRDD.toDF() Ich erhalte eine Fehlermeldung: TypeError: Schema für Typ kann nicht abgeleitet werden: Typ 'float' Ich verstehe nicht warum ...

2 die antwort

Wie verwende ich Fensterfunktionen in PySpark mit DataFrames?

Versuche herauszufinden, wie Fensterfunktionen in PySpark verwendet werden. Hier ist ein Beispiel dafür, was ich tun möchte: Zählen Sie einfach, wie oft ein Benutzer ein "Ereignis" hat (in diesem Fall ist "dt" ein simulierter Zeitstempel). from ...

2 die antwort

'PipelinedRDD' Objekt hat kein Attribut 'toDF' in PySpark

Ich versuche eine SVM-Datei zu laden und in eine @ zu konvertierDataFrame damit ich das ML Modul benutzen kann Pipeline ML) von Spark. Ich habe gerade einen neuen Spark 1.5.0 auf einem Ubuntu 14.04 installiert ...

2 die antwort

Spark partitionBy viel langsamer als ohne

Ich habe das Schreiben getestet mit: df.write.partitionBy("id", "name") .mode(SaveMode.Append) .parquet(filePath) Allerdings, wenn ich die Partitionierung weglasse: df.write .mode(SaveMode.Append) .parquet(filePath)It führt 100x (!) ...