多模态智能数据湖 TClake 服务中,您可通过数据卷(Volume)统一管理各类实际存储在对象存储或 HDFS 文件系统中的非结构化数据。
什么是数据卷(Volume)
数据卷是多模态智能数据湖 TClake 服务中非结构化文件对象的集合,您可通过 Volume 对非表格数据集进行统一治理。数据卷代表对象存储某一位置中的一个具体逻辑存储卷,通过多模态智能数据湖 TClake 服务的 Volume 虚拟路径,可赋予上层计算引擎快速访问这些文件并理解其元信息的能力。
数据卷优势
在传统的非结构化数据管理实践中,往往需直接使用文件系统的物理存储路径和 Credential 信息(如对象存储 Access Key/Seret Key),而在多人协作的数据科学开发中 Credential 分发无疑将造成潜在风险,不规范的路径也会提示交付成本和出错概率。
通过数据卷功能,可将复杂的多云物理路径映射为逻辑统一、权限统一的 volume 架构,构建具备业务分类意义的非结构化数据目录体系。核心价值:
1. 统一管理:构建逻辑统一、具备业务分类意义的目录。
2. 便于迁移:算法和存储介质解耦,支持无感数据迁移。
3. 效率提升:减少不规范的路径的交付成本和出错概率。
创建数据卷
第一步:创建 Volume Catalog
1. 登录 多模态智能数据湖 TClake 服务控制台,在数据目录列表页面单击创建数据目录。
2. 数据目录类型选择内部数据目录,存储数据类型选择数据卷(Volume)。
3. 单击确认,即创建了一个可关联非结构化文件的数据卷目录。
第二步:创建 Volume
1. 在创建 Volume 之前,需要先在数据目录下创建一个 Schema。
2. Schema创建成功后,在 Schema 下单击创建数据卷。
3. 在弹出对话框,输入 Volume 名称,随后选择一个需要关联的对象存储路径。
注意:
Volume 将默认关联该路径 folder 下所有的文件到 Volume 中。
4. 单击确认,即创建一个映射到上述对象存储路径的 Volume。
第三步:查看 Volume
在多模态智能数据湖 TClake 服务左侧菜单栏,选择数据目录,在树状数据目录浏览器可选择对应数据目录以及旗下 Volume 等层级进行查看。