Hadoop: Reductor escribiendo el asignador en el archivo de salida

Question

Jun 14, 2012, 02:55 AM

Hadoop: Reductor escribiendo el asignador en el archivo de salida

Me encontré con un problema muy extraño. Los reductores funcionan, pero si reviso los archivos de salida, solo encontré la salida de los asignadores. Cuando intentaba depurar, encontré el mismo problema con el ejemplo de conteo de palabras después de cambiar el tipo de valor de salida de los asignadores de Longwritable a Text

    package org.myorg;

import java.io.IOException;
import java.util.*;

import org.apache.hadoop.fs.Path;
import org.apache.hadoop.conf.*;
import org.apache.hadoop.io.*;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.mapreduce.lib.input.*;
import org.apache.hadoop.mapreduce.lib.output.*;
import org.apache.hadoop.util.*;

public class WordCount extends Configured implements Tool {

   public static class Map
       extends Mapper<LongWritable, Text, Text, Text> {
     private final static IntWritable one = new IntWritable(1);
     private Text word = new Text();

     public void map(LongWritable key, Text wtf, Context context)
         throws IOException, InterruptedException {
       String line = wtf.toString();
       StringTokenizer tokenizer = new StringTokenizer(line);
       while (tokenizer.hasMoreTokens()) {
         word.set(tokenizer.nextToken());
         context.write(word, new Text("frommapper"));
       }
     }
   }

   public static class Reduce
       extends Reducer<Text, Text, Text, Text> {
     public void reduce(Text key, Text wtfs,
         Context context) throws IOException, InterruptedException {
/*
       int sum = 0;
       for (IntWritable val : wtfs) {
         sum += val.get();
       }
       context.write(key, new IntWritable(sum));*/
    context.write(key,new Text("can't output"));
     }
   }

   public int run(String [] args) throws Exception {
     Job job = new Job(getConf());
     job.setJarByClass(WordCount.class);
     job.setJobName("wordcount");


     job.setOutputKeyClass(Text.class);
     job.setMapOutputValueClass(Text.class);
       job.setOutputValueClass(Text.class);
     job.setMapperClass(Map.class);
     //job.setCombinerClass(Reduce.class);
     job.setReducerClass(Reduce.class);

     job.setInputFormatClass(TextInputFormat.class);
     job.setOutputFormatClass(TextOutputFormat.class);

     FileInputFormat.setInputPaths(job, new Path(args[0]));
     FileOutputFormat.setOutputPath(job, new Path(args[1]));

     boolean success = job.waitForCompletion(true);
     return success ? 0 : 1;
         }

   public static void main(String[] args) throws Exception {
     int ret = ToolRunner.run(new WordCount(), args);
     System.exit(ret);
   }
}

aquí están los resultados

JobClient:     Combine output records=0
12/06/13 17:37:46 INFO mapred.JobClient:     Map input records=7
12/06/13 17:37:46 INFO mapred.JobClient:     Reduce shuffle bytes=116
12/06/13 17:37:46 INFO mapred.JobClient:     Reduce output records=7
12/06/13 17:37:46 INFO mapred.JobClient:     Spilled Records=14
12/06/13 17:37:46 INFO mapred.JobClient:     Map output bytes=96
12/06/13 17:37:46 INFO mapred.JobClient:     Combine input records=0
12/06/13 17:37:46 INFO mapred.JobClient:     Map output records=7
12/06/13 17:37:46 INFO mapred.JobClient:     Reduce input records=7

Luego encontré los resultados extraños en el archivo outfile. Este problema ocurrió después de que cambié el tipo de valor de salida del mapa y el tipo de clave de entrada del reductor a Texto, independientemente de que haya cambiado el tipo de valor de salida reducido o no. También me vi obligado a cambiar job.setOutputValue (Text.class)

a   frommapper
a   frommapper
a   frommapper
gg  frommapper
h   frommapper
sss frommapper
sss frommapper

¡Ayuda!

Respuestas a la pregunta(1)

Preguntas populares

0 la respuesta

Eclipselink historia de objetos relacionados

0 la respuesta

Habilitar la actualización para elementos html específicos solamente

0 la respuesta

Correo programado en asp.net

0 la respuesta

Trabajando alrededor de LinqToSQls "excepción con las colecciones locales no son compatibles" excepción

0 la respuesta

Leer el nombre común del archivo .pem

¡Eres muy activo! ¡Es genial!

Hadoop: Reductor escribiendo el asignador en el archivo de salida

Respuestas a la pregunta(1)

Su respuesta a la pregunta

Preguntas populares