Hadoop HDFS: lee los archivos de secuencia que se están escribiendo
Estoy usando Hadoop 1.0.3.
Escribo los registros en un archivo de secuencia de Hadoop en HDFS, llamo a syncFS () después de cada grupo de registros, pero nunca cierro el archivo (excepto cuando estoy realizando una tirada diaria).
Lo que quiero garantizar es que el archivo esté disponible para los lectores mientras el archivo aún se está escribiendo.
Puedo leer los bytes del archivo de secuencia a través de FSDataInputStream, pero si intento usar SequenceFile.Reader.next (clave, val), devuelve falso en la primera llamada.
Sé que los datos están en el archivo ya que puedo leerlos con FSDataInputStream o con el comando cat y estoy 100% seguro de que se llama a syncFS ().
Revisé los registros de nombre de árbol y de código de datos, sin errores ni advertencias.
¿Por qué SequenceFile.Reader no puede leer mi archivo que se está escribiendo actualmente?