我正在尝试访问Apache Spark中以_
开头的s3上的gz文件。不幸的是,spark认为这些文件是不可见的,并返回Input path does not exist: s3n:.../_1013.gz
。如果我去掉下划线,它会发现文件没有问题。
我尝试向hadoopConfig添加一个自定义的PathFilter:
package CustomReader
import org.apache.hadoop.fs.{Path, PathFilter}
class GFilterZip extends PathFilter {
override def accept(path: Path): Boolean = {
true
}
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])
但我仍然有同样的问题。有什么想法吗?
系统:带Hadoop 2.3的Apache Spark 1.6.0
https://stackoverflow.com/questions/38316921
复制