MultipleOutputFormat в hadoop

Question

Aug 16, 2010, 08:42 AM

MultipleOutputFormat в hadoop

Я новичок в Hadoop. Я пробую программу Wordcount.

Теперь, чтобы попробовать несколько выходных файлов, я используюMultipleOutputFormat, эта ссылка помогла мне в этом.http://hadoop.apache.org/common/docs/r0.19.0/api/org/apache/hadoop/mapred/lib/MultipleOutputs.html

в моем классе водителя у меня было

    MultipleOutputs.addNamedOutput(conf, "even",
            org.apache.hadoop.mapred.TextOutputFormat.class, Text.class,
            IntWritable.class);

    MultipleOutputs.addNamedOutput(conf, "odd",
            org.apache.hadoop.mapred.TextOutputFormat.class, Text.class,
            IntWritable.class);`

и мой класс снижения стал этим

public static class Reduce extends MapReduceBase implements
        Reducer<Text, IntWritable, Text, IntWritable> {
    MultipleOutputs mos = null;

    public void configure(JobConf job) {
        mos = new MultipleOutputs(job);
    }

    public void reduce(Text key, Iterator<IntWritable> values,
            OutputCollector<Text, IntWritable> output, Reporter reporter)
            throws IOException {
        int sum = 0;
        while (values.hasNext()) {
            sum += values.next().get();
        }
        if (sum % 2 == 0) {
            mos.getCollector("even", reporter).collect(key, new IntWritable(sum));
        }else {
            mos.getCollector("odd", reporter).collect(key, new IntWritable(sum));
        }
        //output.collect(key, new IntWritable(sum));
    }
    @Override
    public void close() throws IOException {
        // TODO Auto-generated method stub
    mos.close();
    }
}

Все сработало, но я получаю МНОГО файлов (один нечетный и один четный для каждой карты-уменьшения)

Вопрос: как я могу иметь только 2 выходных файла (нечетные и четные), чтобы каждый нечетный вывод каждого редуктора карты записывался в этот нечетный файл, и то же самое для четного.

MultipleOutputFormat в hadoop

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

MultipleOutputFormat в hadoop

Ответы на вопрос(3)

Ваш ответ на вопрос

Популярные вопросы