Hadoop: предоставить каталог в качестве входных данных для задания MapReduce

Question

Nov 20, 2013, 12:13 PM

Я использую Cloudera Hadoop. Я могу запустить простую программу mapreduce, где я предоставляю файл в качестве входных данных для программы MapReduce.

Этот файл содержит все остальные файлы, которые будут обработаны функцией mapper.

Но я застрял в одной точке.

/folder1
  - file1.txt
  - file2.txt
  - file3.txt

Как я могу указать входной путь к программе MapReduce как"/folder1", чтобы он мог начать обработку каждого файла в этом каталоге?

Есть идеи ?

РЕДАКТИРОВАТЬ :

1) Вначале я предоставил inputFile.txt в качестве входных данных для программы mapreduce. Работало отлично.

>inputFile.txt
file1.txt
file2.txt
file3.txt

2) Но теперь, вместо того, чтобы давать входной файл, я хочу указать в качестве входного каталога arg [0] в командной строке.

hadoop jar ABC.jar /folder1 /output

Ответы на вопрос(4)