Suchergebnisse für Anfrage "apache-spark-sql"

6 die antwort

Filtern eines Spark-Datenrahmens basierend auf dem Datum

Ich habe einen Datenrahmen von date, string, stringIch möchte Daten vor einem bestimmten Zeitraum auswählen. Ich habe folgendes ohne glück versucht data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime)) Ich erhalte ...

2 die antwort

Wie definiere und verwende ich eine benutzerdefinierte Aggregatfunktion in Spark SQL?

Ich weiß, wie man eine UDF in Spark SQL schreibt: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)Kann ich etwas Ähnliches tun, um eine Aggregatfunktion zu definieren? ...

2 die antwort

Wie kann man in Spark mehrere Tabellen gleichzeitig lesen und schreiben?

In meiner Spark-Anwendung versuche ich, mehrere Tabellen aus RDBMS zu lesen, einige Daten zu verarbeiten und dann wie folgt mehrere Tabellen in ein anderes RDBMS zu schreiben (in Scala): val reading1 = sqlContext.load("jdbc", Map("url" -> ...

TOP-Veröffentlichungen

4 die antwort

Drop spark dataframe from cache

Ich verwende Spark 1.3.0 mit Python API. Beim Transformieren großer Datenrahmen werden viele DFs zwischengespeichert, um die Ausführung zu beschleunige df1.cache() df2.cache()Die einmalige Verwendung eines bestimmten Datenrahmens ist beendet und ...

8 die antwort

wie man eine Dataframe-Spalte in pyspark @ von String-Typ in Double-Typ ände

Ich habe einen Datenrahmen mit einer Spalte als String. Ich wollte den Spaltentyp in PySpark in Double-Typ ändern. Folgen ist der Weg, den ich gemacht habe: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...

6 die antwort

Temporäre Tabellen aus Apache SQL Spark entfernen

Ich haberegistertemptable imApache Spark usingZeppelin unten: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => ...

8 die antwort

Was sollte der optimale Wert für spark.sql.shuffle.partitions sein oder wie erhöhen wir die Partitionen bei Verwendung von Spark SQL?

Hi, ich verwende eigentlich Spark SQLhiveContext.sql(), bei dem nach Abfragen gruppiert wird und ich auf @ stoOOM Probleme. Denken Sie also an den steigenden Wert vonspark.sql.shuffle.partitions von 200 auf 1000 voreingestellt, aber es hilft ...

6 die antwort

SparkSQL: Wie gehe ich mit Nullwerten in einer benutzerdefinierten Funktion um?

Gegeben Tabelle 1 mit einer Spalte "x" vom Typ String. Ich möchte Tabelle 2 mit einer Spalte "y" erstellen, die eine ganzzahlige Darstellung der in "x" angegebenen Datumszeichenfolgen ist. Wesentlic soll @ behaltnull Werte in Spalte ...

6 die antwort

Spark und SparkSQL: Wie kann man die Fensterfunktion imitieren?

BeschreibunGab einen Datenrahmendf id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04Ich möchte einen laufenden Zähler oder Index erstellen, gruppiert mit der gleichen ID undsortiert nach Datum ...

10 die antwort

DataFrame Join-Optimierung - Broadcast Hash Join

Ich versuche, zwei DataFrames effektiv zu verbinden, von denen einer groß und der andere etwas kleiner ist. Gibt es eine Möglichkeit, all dieses Mischen zu vermeiden? Ich kann nicht @ setzautoBroadCastJoinThreshold, weil es nur Ganzzahlen ...