поддержка gzip в Spark
Для проекта Big Data ям планирую использоватьискра, который имеет некоторые полезные функции, такие как вычисления в памяти для повторяющихся рабочих нагрузок. Он может работать на локальных файлах или поверх HDFS.
Однако в официальной документации я могуНет никаких подсказок о том, как обрабатывать сжатые файлы. На практике может быть достаточно эффективно обрабатывать файлы .gz вместо разархивированных файлов.
Есть ли способ вручную выполнить чтение gzip-файлов или распаковка уже выполняется автоматически при чтении gg-файла?