Suchergebnisse für Anfrage "apache-spark-sql"

14 die antwort

So exportieren Sie Daten von Spark SQL nach CSV

Dieser Befehl funktioniert mit HiveQL: insert overwrite directory '/data/home.csv' select * from testtable;Aber mit Spark SQL erhalte ich einen Fehler mit einemorg.apache.spark.sql.hive.HiveQl Stack-Trace: java.lang.RuntimeException: ...

16 die antwort

Wie wird die erste Zeile jeder Gruppe ausgewählt?

Ich habe einen DataFrame wie folgt generiert: df.groupBy($"Hour", $"Category") .agg(sum($"value") as "TotalValue") .sort($"Hour".asc, $"TotalValue".desc)) Die Ergebnisse sehen so aus: +----+--------+----------+ |Hour|Category|TotalValue| ...

16 die antwort

Wie führe ich eine Vereinigung für zwei DataFrames mit unterschiedlicher Spaltenanzahl im Spark durch?

Ich habe 2DataFrames wie folgt: [/imgs/L4qs0.png] Ich brauche Gewerkschaft wie folgt: [/imgs/mdICY.png] DasunionAll -Funktion funktioniert nicht, da die Anzahl und der Name der Spalten unterschiedlich sind. Wie kann ich das machen

TOP-Veröffentlichungen

18 die antwort

Beste Möglichkeit, den Maximalwert in einer Spark-Datenrahmenspalte zu ermitteln

Ich versuche, den besten Weg zu finden, um den größten Wert in einer Spark-Datenrahmenspalte zu erhalten. Betrachten Sie das folgende Beispiel: df = spark.createDataFrame([(1., 4.), (2., 5.), (3., 6.)], ["A", "B"]) df.show() Welche ...

18 die antwort

Spezifische Partitionen in der Spark-Dataframe-Schreibmethode überschreiben

Ich möchte bestimmte Partitionen überschreiben, anstatt alle in Spark. Ich versuche den folgenden Befehl: df.write.orc('maprfs:///hdfs-base-path','overwrite',partitionBy='col4')wobei df ein Datenrahmen ist, dessen inkrementelle Daten ...

20 die antwort

So konvertieren Sie ein rdd-Objekt in einen Datenrahmen in spark

Wie kann ich eine RDD konvertieren org.apache.spark.rdd.RDD[org.apache.spark.sql.Row]) zu einem Datenrahmenorg.apache.spark.sql.DataFrame. Ich habe einen Datenrahmen mit @ nach rdd konvertie.rdd. Nach der Verarbeitung möchte ich es wieder in ...

22 die antwort

Wie überprüfe ich, ob der Spark-Datenrahmen leer ist?

Right jetzt muss ich @ verwenddf.count > 0, um zu überprüfen, ob dasDataFrame ist leer oder nicht. Aber es ist irgendwie ineffizient. Gibt es einen besseren Weg, das zu tun? Vielen Dank PS: Ich möchte überprüfen, ob es leer ist, damit ich nur ...

28 die antwort

Differenz zwischen DataFrame, Dataset und RDD in Spark

Ich frage mich nur, was ist der Unterschied zwischen einemRDD undDataFrame (Spark 2.0.0 DataFrame ist ein reiner Typalias fürDataset[Row]) in Apache Spark? Kannst du eins in das andere konvertieren?

32 die antwort

Wie ändere ich die Spaltentypen im DataFrame von Spark SQL?

Angenommen, ich mache etwas wie: val df = sqlContext.load("com.databricks.spark.csv", Map("path" -> "cars.csv", "header" -> "true")) df.printSchema() root |-- year: string (nullable = true) |-- make: string (nullable = true) |-- model: string ...