Fügen Sie dem verteilten Cache in HIVE mehrere Dateien hinzu

Ich habe derzeit ein Problem beim Hinzufügen eines Ordnerinhalts zum misstrauischen Cache von Hives. Ich kann dem verteilten Cache in Hive erfolgreich mehrere Dateien hinzufügen, indem ich Folgendes verwende:

ADD FILE /folder/file1.ext;
ADD FILE /folder/file2.ext;
ADD FILE /folder/file3.ext;
etc.

.

Ich sehe auch, dass es eine gibtADD FILES (plural) Option, die in meinen Augen bedeutet, dass Sie ein Verzeichnis wie das folgende angeben könnten:ADD FILES /folder/; und alles im Ordner wird eingeschlossen (dies funktioniert mit der Option Hadoop Streaming -files). Bei Hive funktioniert das aber nicht. Im Moment muss ich jede Datei explizit hinzufügen.

Mache ich das falsch? Gibt es eine Möglichkeit, einen ganzen Ordnerinhalt in den verteilten Cache zu legen.

P.S. Ich habe Wildcards ausprobiertADD FILE /folder/* undADD FILES /folder/* aber das scheitert auch.

Bearbeiten:

Ab Hive 0.11 wurde dies nun folgendermaßen unterstützt:

ADD FILE /folder

jetzt funktioniert.

Was ich benutze, ist die Übergabe des Ordner-Speicherorts an das Hive-Skript als Parameter, so:

$ hive -f my-query.hql -hiveconf folder=/folder

und in der my-query.hql-Datei:

ADD FILE ${hiveconf:folder}

Schön und ordentlich jetzt!

Antworten auf die Frage(2)

Ihre Antwort auf die Frage