Как читать файлы gz в Spark, используя wholeTextFiles
У меня есть папка, которая содержит много небольших файлов .gz (сжатые текстовые файлы CSV). Мне нужно прочитать их в моей работе Spark, но дело в том, что мне нужно выполнить некоторую обработку, основываясь на информации, содержащейся в имени файла. Поэтому я не использовал:
JavaRDD<<String>String> input = sc.textFile(...)
поскольку, насколько я понимаю, у меня нет доступа к имени файла таким образом. Вместо этого я использовал:
JavaPairRDD<<String>String,String> files_and_content = sc.wholeTextFiles(...);
потому что таким образом я получаю пару имени файла и содержимого. Однако, похоже, что таким образом средство чтения ввода не может прочитать текст из файла gz, а вместо этого читает двоичный файл Gibberish.
Итак, я хотел бы знать, могу ли я установить его для чтения текста или, альтернативно, получить доступ к имени файла, используяsc.textFile(...)