Как читать файлы gz в Spark, используя wholeTextFiles

Question

Jun 25, 2014, 09:32 AM

Как читать файлы gz в Spark, используя wholeTextFiles

У меня есть папка, которая содержит много небольших файлов .gz (сжатые текстовые файлы CSV). Мне нужно прочитать их в моей работе Spark, но дело в том, что мне нужно выполнить некоторую обработку, основываясь на информации, содержащейся в имени файла. Поэтому я не использовал:

JavaRDD<<String>String> input = sc.textFile(...)

поскольку, насколько я понимаю, у меня нет доступа к имени файла таким образом. Вместо этого я использовал:

JavaPairRDD<<String>String,String> files_and_content = sc.wholeTextFiles(...);

потому что таким образом я получаю пару имени файла и содержимого. Однако, похоже, что таким образом средство чтения ввода не может прочитать текст из файла gz, а вместо этого читает двоичный файл Gibberish.

Итак, я хотел бы знать, могу ли я установить его для чтения текста или, альтернативно, получить доступ к имени файла, используяsc.textFile(...)

Как читать файлы gz в Spark, используя wholeTextFiles

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы

Вы очень активны! Это здорово!

Как читать файлы gz в Spark, используя wholeTextFiles

Ответы на вопрос(2)

Ваш ответ на вопрос

Популярные вопросы