Access-Dateien, die mit einem Unterstrich in apache spark @ beginn
Ich versuche, auf gz-Dateien auf s3 zuzugreifen, die mit @ beginne_
in Apache Spark. Leider hält spark diese Dateien für unsichtbar und gibt @ zurücInput path does not exist: s3n:.../_1013.gz
. Wenn ich den Unterstrich entferne, ist die Datei in Ordnung.
Ich habe versucht, einen benutzerdefinierten PathFilter zur hadoopConfig hinzuzufügen:
package CustomReader
import org.apache.hadoop.fs.{Path, PathFilter}
class GFilterZip extends PathFilter {
override def accept(path: Path): Boolean = {
true
}
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])
aber ich habe immer noch das gleiche problem. Irgendwelche Ideen
System: Apache Spark 1.6.0 mit Hadoop 2.3