Access-Dateien, die mit einem Unterstrich in apache spark @ beginn

Question

Jul 12, 2016, 12:02 AM

Access-Dateien, die mit einem Unterstrich in apache spark @ beginn

Ich versuche, auf gz-Dateien auf s3 zuzugreifen, die mit @ beginne_ in Apache Spark. Leider hält spark diese Dateien für unsichtbar und gibt @ zurücInput path does not exist: s3n:.../_1013.gz. Wenn ich den Unterstrich entferne, ist die Datei in Ordnung.

Ich habe versucht, einen benutzerdefinierten PathFilter zur hadoopConfig hinzuzufügen:

package CustomReader

import org.apache.hadoop.fs.{Path, PathFilter}

class GFilterZip extends PathFilter {
  override def accept(path: Path): Boolean = {
    true
  }
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])

aber ich habe immer noch das gleiche problem. Irgendwelche Ideen

System: Apache Spark 1.6.0 mit Hadoop 2.3