Доступ к файлам, которые начинаются с подчеркивания в apache spark

Я пытаюсь получить доступ к файлам gz на s3, которые начинаются с_ в Apache Spark. К сожалению, спарк считает эти файлы невидимыми и возвращаетInput path does not exist: s3n:.../_1013.gz, Если я удаляю подчеркивание, он находит файл просто отлично.

Я попытался добавить собственный PathFilter в hadoopConfig:

package CustomReader

import org.apache.hadoop.fs.{Path, PathFilter}

class GFilterZip extends PathFilter {
  override def accept(path: Path): Boolean = {
    true
  }
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])

но у меня все та же проблема. Есть идеи?

Система: Apache Spark 1.6.0 с Hadoop 2.3

Ответы на вопрос(1)

Решение Вопроса

И hiddenFileFilter будет всегда применяться. Добавлено внутри методаorg.apache.hadoop.mapred.FileInputFormat.listStatus

проверьте этот ответ,какие файлы игнорируются как входные данные mapper?

Ваш ответ на вопрос