Suchergebnisse für Anfrage "apache-spark-sql"

6 die antwort

Spark SQL-Broadcast-Hash-Join

Ich versuche, mit SparkSQL einen Broadcast-Hash-Join für Datenrahmen durchzuführen, wie hier ...

2 die antwort

Update-Abfrage in Spark SQL

Ich frage mich, ob ich die Update-Abfrage in sparksql wie folgt verwenden kann: sqlContext.sql("update users set name = '*' where name is null")Ich habe den Fehler erhalten: org.apache.spark.sql.AnalysisException: Unsupported language features ...

4 die antwort

Verständnis Funken physischen Plan

Ich versuche, physikalische Pläne für Funken zu verstehen, aber ich verstehe einige Teile nicht, weil sie sich von herkömmlichen RDBMS zu unterscheiden scheinen. In diesem folgenden Plan handelt es sich beispielsweise um einen Plan für eine ...

TOP-Veröffentlichungen

2 die antwort

Pivot String-Spalte in Pyspark Dataframe

Ich habe einen einfachen Datenrahmen wie diesen: rdd = sc.parallelize( [ (0, "A", 223,"201603", "PORT"), (0, "A", 22,"201602", "PORT"), (0, "A", 422,"201601", "DOCK"), (1,"B", 3213,"201602", "DOCK"), (1,"B", 3213,"201601", "PORT"), (2,"C", ...

4 die antwort

PySpark: Mehrere Bedingungen in der when-Klausel

Ich möchte die Zellenwerte einer Datenrahmenspalte (Alter) ändern, in der sie derzeit leer ist, und ich würde dies nur tun, wenn eine andere Spalte (Überlebt) den Wert 0 für die entsprechende Zeile hat, in der sie für Alter leer ist. Wenn es in ...

10 die antwort

Wie importiere ich mehrere CSV-Dateien auf einmal?

Consider Ich habe ein definiertes Schema zum Laden von 10 CSV-Dateien in einen Ordner. Gibt es eine Möglichkeit, Tabellen mit Spark SQL automatisch zu laden? Ich weiß, dass dies durchgeführt werden kann, indem für jede Datei ein ...

8 die antwort

Aggregieren mehrerer Spalten mit benutzerdefinierter Funktion in Spark

Ich habe mich gefragt, ob es eine Möglichkeit gibt, eine benutzerdefinierte Aggregationsfunktion für Spark-Datenrahmen über mehrere Spalten anzugeben. Ich habe eine Tabelle wie diese vom Typ (Name, Artikel, Preis): john | tomato | 1.99 john | ...

8 die antwort

Zeilensummenspalte über eine Spaltenliste in Spark Dataframe hinzufügen

Ich habe einen Spark-Datenrahmen mit mehreren Spalten. Ich möchte dem Datenrahmen eine Spalte hinzufügen, die eine Summe einer bestimmten Anzahl von Spalten ist. Zum Beispiel sehen meine Daten so aus: ID var1 var2 var3 var4 var5 a 5 7 9 12 13 b ...

2 die antwort

Partitionierung nach mehreren Spalten in Spark SQL

Mit den Fensterfunktionen von Spark SQL muss ich meine Datenabfragen wie folgt nach mehreren Spalten partitionieren: val w = Window.partitionBy($"a").partitionBy($"b").rangeBetween(-100, 0) Ich habe derzeit keine Testumgebung (ich arbeite ...

4 die antwort

olen Sie sich mehr als 20 Zeilen und zeigen Sie den vollen Wert der Spalte in der Spark-Shell a

Ich benutzeCassandraSQLContext von Spark-Shell, um Daten von Cassandra abzufragen. Also, ich möchte zwei Dinge wissen, wie man mit @ mehr als 20 Zeilen hoCassandraSQLContext und zweitens, wie kann ich den vollen Wert der Spalte anzeigen. Wie Sie ...