前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >使用 HDFS 协议访问对象存储服务

使用 HDFS 协议访问对象存储服务

作者头像
云存储
发布2022-05-07 12:10:35
1.6K0
发布2022-05-07 12:10:35
举报

背景介绍

原生对象存储服务的索引是扁平化的组织形式,在传统文件语义下的 List 和 Rename 操作性能表现上存在短板。腾讯云对象存储服务 COS 通过元数据加速功能,为上层计算业务提供了等效于 HDFS 协议的操作接口和操作性能。

(一)什么是元数据加速器?

元数据加速功能是由腾讯云对象存储(Cloud Object Storage,COS)服务提供的高性能文件系统功能

元数据加速功能底层采用了云 HDFS 卓越的元数据管理功能,支持用户通过文件系统语义访问对象存储服务,系统设计指标可以达到2.4Gb/s带宽、10万级 QPS 以及 ms 级延迟。存储桶在开启元数据加速功能后,可以广泛应用于大数据、高性能计算、机器学习、AI 等场景。有关元数据加速的详细介绍,请参考元数据加速器(https://cloud.tencent.com/document/product/436/56971)。

(二)使用 HDFS 协议访问的优势是什么?

以往基于对象存储 COS 的大数据访问主要采用 Hadoop-COS 工具来访问。Hadoop-COS 工具内部将 HCFS 接口适配为对象存储的 Restful 接口,从而对对象存储上的数据进行访问。由于对象存储和文件系统在元数据组织方式上的差异,导致元数据操作性能上存在性能差异,从而影响了大数据分析性能。开启元数据加速器的 Bucket,完全兼容 HDFS 协议,可以采用原生的 HDFS 接口直接访问,除了省去了 HDFS 协议到对象协议的转换开销外,更能提供原生 HDFS 的一些功能,如目录原子高效 Rename,文件 Atime,Mtime 更新,高效目录 DU 统计,Posix ACL 权限支持等等原生特性。

准备工作

1、创建 COS Bucket,并且开启元数据加速能力。如图所示:

当 Bucket 创建好之后,在存储桶页面,可以看到相关配置,并且可以在控制台进行文件上传下载操作,如Bucket: meta-accelarate-1253960454;

2、创建好之后,点击左侧性能配置页面,点击元数据加速按钮,可以看到元数据加速能力已开启。如果是第一次创建元数据加速存储桶,则需要按照提示进行相应的授权操作,点击授权完成后,将自动开启 HDFS 协议,并且看到默认的 Bucket 挂载点信息,如下图所示:

说明:如果提示未找到对应的 HDFS 文件系统,请点击提交工单(https://console.cloud.tencent.com/workorder/category)联系我们获取帮助。

3、开启 HDFS 协议开关后,需要配置 VPC 访问权限。在 HDFS 权限配置标签页,点击新增权限配置按钮,在 VPC 网络名称列选择计算集群所在的 VPC 网络地址,在节点 IP 地址列,填写 VPC 网段下需要放通的 ip地址或者 ip 段。

访问类型可以选择读写或者只读,配置好后点击保存即可,如下图所示:

HDFS 权限配置与原生 COS 权限体系存在差异。当您使用 HDFS 协议访问时,推荐通过配置 HDFS 权限授权指定 VPC 内机器访问 COS 存储桶,以便获取和原生 HDFS 一致的权限体验。

4、HDFS 协议默认采用原生 POSIX ACL 方式进行鉴权,如果需要使用 Ranger 鉴权,可以在 HDFS 鉴权模式下,选择 Ranger 鉴权模式,配置上 Ranger 相应的地址信息即可。如下图所示:

您可以参考文档 HDFSranger 鉴权(https://cloud.tencent.com/document/product/1105/53307),配置 Ranger 服务,通过 Ranger 服务以 HDFS 协议访问 COS。

5、创建好环境后,需要在计算集群配置 core-site.xml ,具体参考文档配置 HDFS 协议配置(https://cloud.tencent.com/document/product/1105/36368),

如果您使用的是腾讯云 EMR,则可以直接使用 EMR 的默认配置,无需额外配置。

注意:fs.ofs.region 必须配置,该参数用于指定存储桶所在的 COS 地域,如ap-shanghai

6、下载 HDFS 协议访问的客户端安装包(https://github.com/tencentyun/chdfs-hadoop-plugin/tree/master/jar) ,请确保安装包的版本在 2.7及其以上。

下载后,讲安装包放置到 Hadoop 集群中每台服务器正确的 classpath 路径下,如 /usr/local/service/hadoop/share/hadoop/common/lib/(根据实际情况防止,不同组件可能放置的位置也不一样),然后重启YarnHivePrestoImpala 等一些常驻服务。

7、所有环境配置完成后,可以在客户端使用 Hadoop 命令行来查看是否挂载成功,如下图所示:

您也可以登录 COS控制台(https://console.cloud.tencent.com/cos),查看存储桶文件列表,明确文件和目录是否一致,例如:

通过 HDFS 协议访问 COS 

大数据场景下,您可以参考如下步骤以 HDFS 协议访问开启元数据加速能力的存储桶:

1、在 core-stie.xml 中配置 HDFS 协议相关挂载点信息,如准备工作中所示;

2、Hive,MR,Spark 等组件访问存储桶,参考文章 CDH 访问大数据来进行大数据访问(https://cloud.tencent.com/document/product/1105/47062);

3、默认情况下,采用原生 POSIX ACL 方式进行鉴权,如果需要使用 Ranger 鉴权,可以参考 Ranger 相关原理和实践访问,参考文档(https://cloud.tencent.com/document/product/1105/53307)。

/ 相关推荐 /

↓↓↓

— END —

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-05-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云存储 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档