Entpacken Sie Dateien mit Hadoop Streaming

Ich habe viele Dateien in HDFS, von denen alle eine Zip-Datei mit einer CSV-Datei enthalten. Ich versuche, die Dateien zu dekomprimieren, damit ich einen Streaming-Auftrag auf ihnen ausführen kann.

Ich habe es versucht:

hadoop jar /usr/lib/hadoop-mapreduce/hadoop-streaming.jar \
    -D mapred.reduce.tasks=0 \
    -mapper /bin/zcat -reducer /bin/cat \
    -input /path/to/files/ \
    -output /path/to/output

Ich erhalte jedoch eine Fehlermeldung (subprocess failed with code 1) Ich habe auch versucht, auf einer einzelnen Datei den gleichen Fehler auszuführen.

Irgendein Rat?

Antworten auf die Frage(4)

Ihre Antwort auf die Frage