Запись вывода в разные папки hadoop
Я могу использовать функцию множественных выходов в hadoop для записи в разные файлы, но они оба идут в одну и ту же папку вывода.
Я хочу записать каждый файл из одной и той же папки в другую папку.
Есть ли способ сделать это?
Если я попытаюсь указать, например, «hello / testfile», в качестве второго аргумента, он покажет invaid аргумент. Поэтому я не могу писать в разные папки.
If the above case is not possible, the is it possible for the mapper to read only specific files from an input folder?Пожалуйста, помогите мне.
Заранее спасибо!
Спасибо за ответ. Я могу успешно прочитать файл, используя метод, описанный выше. Но в распределенном режиме я не могу это сделать. В редукторе у меня есть задавать:
mos.getCollector("data", reporter).collect(new Text(str_key), new Text(str_val));
(Используя несколько выходов, и в Job Conf: Я пытался с помощью
FileInputFormat.setInputPaths(conf2, "/home/users/mlakshm/opchk285/data-r-00000*");
так же как
FileInputFormat.setInputPaths(conf2, "/home/users/mlakshm/opchk285/data*");
Но это дает следующую ошибку:
cause:org.apache.hadoop.mapred.InvalidInputException: Input Pattern hdfs://mentat.cluster:54310/home/users/mlakshm/opchk295/data-r-00000* matches 0 files