Suchergebnisse für Anfrage "apache-spark-sql"
Filtern eines Spark-Datenrahmens basierend auf dem Datum
Ich habe einen Datenrahmen von date, string, stringIch möchte Daten vor einem bestimmten Zeitraum auswählen. Ich habe folgendes ohne glück versucht data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime)) Ich erhalte ...
Wie definiere und verwende ich eine benutzerdefinierte Aggregatfunktion in Spark SQL?
Ich weiß, wie man eine UDF in Spark SQL schreibt: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)Kann ich etwas Ähnliches tun, um eine Aggregatfunktion zu definieren? ...
Wie kann man in Spark mehrere Tabellen gleichzeitig lesen und schreiben?
In meiner Spark-Anwendung versuche ich, mehrere Tabellen aus RDBMS zu lesen, einige Daten zu verarbeiten und dann wie folgt mehrere Tabellen in ein anderes RDBMS zu schreiben (in Scala): val reading1 = sqlContext.load("jdbc", Map("url" -> ...
Drop spark dataframe from cache
Ich verwende Spark 1.3.0 mit Python API. Beim Transformieren großer Datenrahmen werden viele DFs zwischengespeichert, um die Ausführung zu beschleunige df1.cache() df2.cache()Die einmalige Verwendung eines bestimmten Datenrahmens ist beendet und ...
wie man eine Dataframe-Spalte in pyspark @ von String-Typ in Double-Typ ände
Ich habe einen Datenrahmen mit einer Spalte als String. Ich wollte den Spaltentyp in PySpark in Double-Typ ändern. Folgen ist der Weg, den ich gemacht habe: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...
Temporäre Tabellen aus Apache SQL Spark entfernen
Ich haberegistertemptable imApache Spark usingZeppelin unten: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => ...
Was sollte der optimale Wert für spark.sql.shuffle.partitions sein oder wie erhöhen wir die Partitionen bei Verwendung von Spark SQL?
Hi, ich verwende eigentlich Spark SQLhiveContext.sql(), bei dem nach Abfragen gruppiert wird und ich auf @ stoOOM Probleme. Denken Sie also an den steigenden Wert vonspark.sql.shuffle.partitions von 200 auf 1000 voreingestellt, aber es hilft ...
SparkSQL: Wie gehe ich mit Nullwerten in einer benutzerdefinierten Funktion um?
Gegeben Tabelle 1 mit einer Spalte "x" vom Typ String. Ich möchte Tabelle 2 mit einer Spalte "y" erstellen, die eine ganzzahlige Darstellung der in "x" angegebenen Datumszeichenfolgen ist. Wesentlic soll @ behaltnull Werte in Spalte ...
Spark und SparkSQL: Wie kann man die Fensterfunktion imitieren?
BeschreibunGab einen Datenrahmendf id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04Ich möchte einen laufenden Zähler oder Index erstellen, gruppiert mit der gleichen ID undsortiert nach Datum ...
DataFrame Join-Optimierung - Broadcast Hash Join
Ich versuche, zwei DataFrames effektiv zu verbinden, von denen einer groß und der andere etwas kleiner ist. Gibt es eine Möglichkeit, all dieses Mischen zu vermeiden? Ich kann nicht @ setzautoBroadCastJoinThreshold, weil es nur Ganzzahlen ...