Como ler arquivos gz no Spark usando wholeTextFiles

Question

Jun 25, 2014, 09:32 AM

Como ler arquivos gz no Spark usando wholeTextFiles

Eu tenho uma pasta que contém muitos arquivos .gz pequenos (arquivos de texto csv compactados). Preciso lê-los no meu trabalho do Spark, mas o processo é necessário, com base nas informações contidas no nome do arquivo. Portanto, eu não usei:

JavaRDD<<String>String> input = sc.textFile(...)

pois, pelo que entendi, não tenho acesso ao nome do arquivo dessa maneira. Em vez disso, eu usei:

JavaPairRDD<<String>String,String> files_and_content = sc.wholeTextFiles(...);

porque dessa maneira recebo um par de nome de arquivo e o conteúdo. No entanto, parece que dessa maneira, o leitor de entrada falha ao ler o texto do arquivo gz, mas lê o Gibberish binário.

Portanto, gostaria de saber se posso configurá-lo para ler o texto de alguma forma ou acessar o nome do arquivo como alternativa usandosc.textFile(...)