Como ler arquivos gz no Spark usando wholeTextFiles
Eu tenho uma pasta que contém muitos arquivos .gz pequenos (arquivos de texto csv compactados). Preciso lê-los no meu trabalho do Spark, mas o processo é necessário, com base nas informações contidas no nome do arquivo. Portanto, eu não usei:
JavaRDD<<String>String> input = sc.textFile(...)
pois, pelo que entendi, não tenho acesso ao nome do arquivo dessa maneira. Em vez disso, eu usei:
JavaPairRDD<<String>String,String> files_and_content = sc.wholeTextFiles(...);
porque dessa maneira recebo um par de nome de arquivo e o conteúdo. No entanto, parece que dessa maneira, o leitor de entrada falha ao ler o texto do arquivo gz, mas lê o Gibberish binário.
Portanto, gostaria de saber se posso configurá-lo para ler o texto de alguma forma ou acessar o nome do arquivo como alternativa usandosc.textFile(...)