Suchergebnisse für Anfrage "apache-spark-sql"

Ich habe einen Datenrahmen von date, string, stringIch möchte Daten vor einem bestimmten Zeitraum auswählen. Ich habe folgendes ohne glück versucht data.filter(data("date") < new java.sql.Date(format.parse("2015-03-14").getTime)) Ich erhalte ...

aggregate-functions user-defined-functions apache-spark scala

2 die antwort

Wie definiere und verwende ich eine benutzerdefinierte Aggregatfunktion in Spark SQL?

Ich weiß, wie man eine UDF in Spark SQL schreibt: def belowThreshold(power: Int): Boolean = { return power < -40 } sqlContext.udf.register("belowThreshold", belowThreshold _)Kann ich etwas Ähnliches tun, um eine Aggregatfunktion zu definieren? ...

scala parallel-processing apache-spark

2 die antwort

Wie kann man in Spark mehrere Tabellen gleichzeitig lesen und schreiben?

In meiner Spark-Anwendung versuche ich, mehrere Tabellen aus RDBMS zu lesen, einige Daten zu verarbeiten und dann wie folgt mehrere Tabellen in ein anderes RDBMS zu schreiben (in Scala): val reading1 = sqlContext.load("jdbc", Map("url" -> ...

TOP-Veröffentlichungen

The In-Depth Guide on Video Streaming Protocols [for non-tech founders]

Wie erstellt man eine Krypto-Tauschbörse?

apache-spark spark-streaming

4 die antwort

Drop spark dataframe from cache

Ich verwende Spark 1.3.0 mit Python API. Beim Transformieren großer Datenrahmen werden viele DFs zwischengespeichert, um die Ausführung zu beschleunige df1.cache() df2.cache()Die einmalige Verwendung eines bestimmten Datenrahmens ist beendet und ...

apache-spark pyspark dataframe python

8 die antwort

wie man eine Dataframe-Spalte in pyspark @ von String-Typ in Double-Typ ände

Ich habe einen Datenrahmen mit einer Spalte als String. Ich wollte den Spaltentyp in PySpark in Double-Typ ändern. Folgen ist der Weg, den ich gemacht habe: toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf ...

apache-zeppelin apache-spark scala

6 die antwort

Temporäre Tabellen aus Apache SQL Spark entfernen

Ich haberegistertemptable imApache Spark usingZeppelin unten: val hvacText = sc.textFile("...") case class Hvac(date: String, time: String, targettemp: Integer, actualtemp: Integer, buildingID: String) val hvac = hvacText.map(s => ...

apache-spark

8 die antwort

Was sollte der optimale Wert für spark.sql.shuffle.partitions sein oder wie erhöhen wir die Partitionen bei Verwendung von Spark SQL?

Hi, ich verwende eigentlich Spark SQLhiveContext.sql(), bei dem nach Abfragen gruppiert wird und ich auf @ stoOOM Probleme. Denken Sie also an den steigenden Wert vonspark.sql.shuffle.partitions von 200 auf 1000 voreingestellt, aber es hilft ...

nullable apache-spark scala user-defined-functions

6 die antwort

SparkSQL: Wie gehe ich mit Nullwerten in einer benutzerdefinierten Funktion um?

Gegeben Tabelle 1 mit einer Spalte "x" vom Typ String. Ich möchte Tabelle 2 mit einer Spalte "y" erstellen, die eine ganzzahlige Darstellung der in "x" angegebenen Datumszeichenfolgen ist. Wesentlic soll @ behaltnull Werte in Spalte ...

window-functions apache-spark scala

6 die antwort

Spark und SparkSQL: Wie kann man die Fensterfunktion imitieren?

BeschreibunGab einen Datenrahmendf id | date --------------- 1 | 2015-09-01 2 | 2015-09-01 1 | 2015-09-03 1 | 2015-09-04 2 | 2015-09-04Ich möchte einen laufenden Zähler oder Index erstellen, gruppiert mit der gleichen ID undsortiert nach Datum ...

apache-spark-1.4 dataframe apache-spark

10 die antwort

DataFrame Join-Optimierung - Broadcast Hash Join

Ich versuche, zwei DataFrames effektiv zu verbinden, von denen einer groß und der andere etwas kleiner ist. Gibt es eine Möglichkeit, all dieses Mischen zu vermeiden? Ich kann nicht @ setzautoBroadCastJoinThreshold, weil es nur Ganzzahlen ...

Seite 7 von 32

5 678 9

Suchergebnisse für Anfrage "apache-spark-sql"

Filtern eines Spark-Datenrahmens basierend auf dem Datum

Wie definiere und verwende ich eine benutzerdefinierte Aggregatfunktion in Spark SQL?

Wie kann man in Spark mehrere Tabellen gleichzeitig lesen und schreiben?

Beliebte Schlagwörter

TOP-Veröffentlichungen

Drop spark dataframe from cache

wie man eine Dataframe-Spalte in pyspark @ von String-Typ in Double-Typ ände

Temporäre Tabellen aus Apache SQL Spark entfernen

Was sollte der optimale Wert für spark.sql.shuffle.partitions sein oder wie erhöhen wir die Partitionen bei Verwendung von Spark SQL?

SparkSQL: Wie gehe ich mit Nullwerten in einer benutzerdefinierten Funktion um?

Spark und SparkSQL: Wie kann man die Fensterfunktion imitieren?

DataFrame Join-Optimierung - Broadcast Hash Join

Du bist sehr aktiv! Es ist großartig!

Suchergebnisse für Anfrage "apache-spark-sql"

Beliebte Schlagwörter

TOP-Veröffentlichungen