Hadoop: предоставить каталог в качестве входных данных для задания MapReduce
Я использую Cloudera Hadoop. Я могу запустить простую программу mapreduce, где я предоставляю файл в качестве входных данных для программы MapReduce.
Этот файл содержит все остальные файлы, которые будут обработаны функцией mapper.
Но я застрял в одной точке.
/folder1
- file1.txt
- file2.txt
- file3.txt
Как я могу указать входной путь к программе MapReduce как"/folder1"
, чтобы он мог начать обработку каждого файла в этом каталоге?
Есть идеи ?
РЕДАКТИРОВАТЬ :
1) Вначале я предоставил inputFile.txt в качестве входных данных для программы mapreduce. Работало отлично.
>inputFile.txt
file1.txt
file2.txt
file3.txt
2) Но теперь, вместо того, чтобы давать входной файл, я хочу указать в качестве входного каталога arg [0] в командной строке.
hadoop jar ABC.jar /folder1 /output