问在apache spark中访问以下划线开头的文件
EN

Stack Overflow用户

提问于 2016-07-12 06:02:41

回答 0查看 2.6K关注 0票数 5

我正在尝试访问Apache Spark中以_开头的s3上的gz文件。不幸的是，spark认为这些文件是不可见的，并返回Input path does not exist: s3n:.../_1013.gz。如果我去掉下划线，它会发现文件没有问题。

我尝试向hadoopConfig添加一个自定义的PathFilter：

package CustomReader

import org.apache.hadoop.fs.{Path, PathFilter}

class GFilterZip extends PathFilter {
  override def accept(path: Path): Boolean = {
    true
  }
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])

但我仍然有同样的问题。有什么想法吗？

系统:带Hadoop 2.3的Apache Spark 1.6.0

hadoop

apache-spark

回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/38316921

复制

相似问题

问在apache spark中访问以下划线开头的文件
EN

回答

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在apache spark中访问以下划线开头的文件EN

回答

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在apache spark中访问以下划线开头的文件
EN