Hadoop: Stellen Sie das Verzeichnis als Eingabe für den MapReduce-Job bereit
Ich benutze Cloudera Hadoop. Ich kann ein einfaches MapReduce-Programm ausführen, in dem ich eine Datei als Eingabe für das MapReduce-Programm bereitstelle.
Diese Datei enthält alle anderen Dateien, die von der Mapper-Funktion verarbeitet werden sollen.
Aber ich stecke an einem Punkt fest.
/folder1
- file1.txt
- file2.txt
- file3.txt
Wie kann ich den Eingabepfad zum MapReduce-Programm als angeben?"/folder1"
, damit jede Datei in diesem Verzeichnis verarbeitet werden kann?
Irgendwelche Ideen ?
EDIT:
1) Intiailly stellte ich das inputFile.txt als Eingang zum mapreduce Programm zur Verfügung. Es hat perfekt funktioniert.
>inputFile.txt
file1.txt
file2.txt
file3.txt
2) Anstatt eine Eingabedatei anzugeben, möchte ich jetzt ein Eingabeverzeichnis als arg [0] in der Befehlszeile bereitstellen.
hadoop jar ABC.jar /folder1 /output