Suchergebnisse für Anfrage "apache-spark-sql"

4 die antwort

PySpark zeilenweise Funktionszusammensetzung

Als vereinfachtes Beispiel habe ich einen Datenrahmen "df" mit den Spalten "col1, col2" und möchte nach dem Anwenden einer Funktion auf jede Spalte ein zeilenweises Maximum berechnen: def f(x): return (x+1) max_udf=udf(lambda x,y: max(x,y), ...

2 die antwort

Wie wähle ich eine Teilmenge von Feldern aus einer Array-Spalte in Spark aus?

Sagen wir, ich habe einen DataFrame wie folgt: case class SubClass(id:String, size:Int,useless:String) case class MotherClass(subClasss: Array[SubClass]) val df = sqlContext.createDataFrame(List( ...

6 die antwort

Wie kann man zwei DataFrames in Scala und Apache Spark verbinden?

Es gibt zwei DataFrames (Scala, Apache Spark 1.6.1) 1) Übereinstimmungen MatchID | Player1 | Player2 -------------------------------- 1 | John Wayne | John Doe 2 | Ive Fish | San Simon 2) Persönliche Daten Player | BirthYear ...

TOP-Veröffentlichungen

2 die antwort

Wie ändere ich einen Spark-Datenrahmen mit einer komplexen verschachtelten Struktur?

Ich habe eine komplexe DataFrame-Struktur und möchte eine Spalte einfach auf null setzen. Ich habe implizite Klassen erstellt, die Funktionen verknüpfen und auf einfache Weise 2D-DataFrame-Strukturen ansprechen, aber sobald der DataFrame mit ...

8 die antwort

Erstellen Sie einen Spark StructType / Schema aus einer Case-Klasse

Wenn ich ein @ erstellen wollStructType (d. h. einDataFrame.schema) aus einemcase class, gibt es eine Möglichkeit, dies zu tun, ohne ein @ zu erstelleDataFrame? Ich kann leicht tun: case class TestCase(id: Long) val schema = ...

2 die antwort

Wie führe ich eine Switch-Anweisung mit Apache Spark Dataframes (Python) durch?

Ich versuche, eine Operation für meine Daten auszuführen, bei der ein bestimmter Wert einer Liste vordefinierter Werte zugeordnet wird, wenn er einem der Kriterien entspricht, oder ansonsten einem Fall-Through-Wert. Dies wäre das Äquivalent zu ...

2 die antwort

PySpark Konvertieren einer Spalte vom Typ "Map" in mehrere Spalten in einem Datenrahmen

EinganIch habe eine SpalteParameters vom Typmap des Formulars: >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] >>> df = sqlContext.createDataFrame(d) >>> ...

2 die antwort

Scala - Erstes Quartil, drittes Quartil und IQR aus Spark-SQLContext-Datenrahmen ohne Hive

Ich habe einen Datenrahmen: data.show() +--------+------+------------------+ | Count| mean| stdev| +--------+------+------------------+ | 5| 6337| 1684.569470220803| | 3| 7224| 567.8250904401182| | 330| 20280|23954.260831863092| | 42| ...

4 die antwort

Die Verwendung von Spark zum Schreiben einer Parkettdatei in s3 über s3a ist sehr langsam

Ich versuche ein @ zu schreibparquet file out toAmazon S3 usingSpark 1.6.1. Der kleineparquet das ich generiere ist~2GB einmal geschrieben, es sind also nicht so viele Daten. Ich versuche zu beweisen,Sparkout als Plattform, die ich ...

4 die antwort

Warum hält Spark SQL die Unterstützung von Indizes für unwichtig?

Zitieren der Spark-DataFrames,Datasets und SQL-Handbuch [http://spark.apache.org/docs/latest/sql-programming-guide.html#unsupported-hive-functionality] : Eine Handvoll Hive-Optimierungen sind noch nicht in Spark enthalten. Einige davon (z. B. ...