Cómo leer archivos gz en Spark usando wholeTextFiles

Question

Jun 25, 2014, 09:32 AM

Cómo leer archivos gz en Spark usando wholeTextFiles

Tengo una carpeta que contiene muchos archivos .gz pequeños (archivos de texto csv comprimidos). Necesito leerlos en mi trabajo de Spark, pero la cuestión es que necesito hacer un procesamiento basado en la información que está en el nombre del archivo. Por lo tanto, no usé:

JavaRDD<<String>String> input = sc.textFile(...)

ya que a mi entender no tengo acceso al nombre del archivo de esta manera. En cambio, usé:

JavaPairRDD<<String>String,String> files_and_content = sc.wholeTextFiles(...);

porque de esta manera obtengo un par de nombre de archivo y el contenido. Sin embargo, parece que de esta manera, el lector de entrada no puede leer el texto del archivo gz, sino que lee el Gibberish binario.

Por lo tanto, me gustaría saber si puedo configurarlo para leer el texto de alguna manera, o alternativamente acceder al nombre del archivo usandosc.textFile(...)