Acessar arquivos que começam com sublinhado no apache spark

Question

Jul 12, 2016, 12:02 AM

Acessar arquivos que começam com sublinhado no apache spark

Estou tentando acessar arquivos gz no s3 que começam com_ no Apache Spark. Infelizmente o spark considera esses arquivos invisíveis e retornaInput path does not exist: s3n:.../_1013.gz. Se eu remover o sublinhado, ele encontrará o arquivo muito bem.

Tentei adicionar um PathFilter personalizado ao hadoopConfig:

package CustomReader

import org.apache.hadoop.fs.{Path, PathFilter}

class GFilterZip extends PathFilter {
  override def accept(path: Path): Boolean = {
    true
  }
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])

mas ainda tenho o mesmo problema. Alguma ideia?

Sistema: Apache Spark 1.6.0 com Hadoop 2.3