Speichern Spark-Datenframe als dynamisch partitionierte Tabelle in Hive

Question

Jul 10, 2015, 03:03 PM

hadoop spark-dataframe apache-spark apache-spark-sql hive

Speichern Spark-Datenframe als dynamisch partitionierte Tabelle in Hive

Ich habe eine Beispielanwendung, die arbeitet, um aus CSV-Dateien in einen Datenrahmen zu lesen. Der Datenrahmen kann mit der Methode @ im Parkettformat in einer Hive-Tabelle gespeichert werdedf.saveAsTable(tablename,mode).

Der obige Code funktioniert einwandfrei, aber ich habe so viele Daten für jeden Tag, dass ich die Hive-Tabelle basierend auf dem Erstellungsdatum (Spalte in der Tabelle) dynamisch partitionieren möchte.

gibt es eine Möglichkeit, den Datenrahmen dynamisch zu partitionieren und im Hive-Warehouse zu speichern. Möchten Sie die Einfügeanweisung nicht mit @ hartcodierehivesqlcontext.sql(insert into table partittioin by(date)....).

Question kann als Erweiterung zu folgenden Elementen betrachtet werden:Wie speichere ich DataFrame direkt in Hive?

jede Hilfe wird sehr geschätzt.