首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >问答首页 >在apache spark中访问以下划线开头的文件

在apache spark中访问以下划线开头的文件
EN

Stack Overflow用户
提问于 2016-07-12 06:02:41
回答 0查看 2.6K关注 0票数 5

我正在尝试访问Apache Spark中以_开头的s3上的gz文件。不幸的是,spark认为这些文件是不可见的,并返回Input path does not exist: s3n:.../_1013.gz。如果我去掉下划线,它会发现文件没有问题。

我尝试向hadoopConfig添加一个自定义的PathFilter:

代码语言:javascript
代码运行次数:0
运行
复制
package CustomReader

import org.apache.hadoop.fs.{Path, PathFilter}

class GFilterZip extends PathFilter {
  override def accept(path: Path): Boolean = {
    true
  }
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])

但我仍然有同样的问题。有什么想法吗?

系统:带Hadoop 2.3的Apache Spark 1.6.0

EN

回答

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38316921

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档