Speichern Spark-Datenframe als dynamisch partitionierte Tabelle in Hive
Ich habe eine Beispielanwendung, die arbeitet, um aus CSV-Dateien in einen Datenrahmen zu lesen. Der Datenrahmen kann mit der Methode @ im Parkettformat in einer Hive-Tabelle gespeichert werdedf.saveAsTable(tablename,mode)
.
Der obige Code funktioniert einwandfrei, aber ich habe so viele Daten für jeden Tag, dass ich die Hive-Tabelle basierend auf dem Erstellungsdatum (Spalte in der Tabelle) dynamisch partitionieren möchte.
gibt es eine Möglichkeit, den Datenrahmen dynamisch zu partitionieren und im Hive-Warehouse zu speichern. Möchten Sie die Einfügeanweisung nicht mit @ hartcodierehivesqlcontext.sql(insert into table partittioin by(date)....)
.
Question kann als Erweiterung zu folgenden Elementen betrachtet werden:Wie speichere ich DataFrame direkt in Hive?
jede Hilfe wird sehr geschätzt.