数据目录(Catalog)是统一 Catalog 服务的元数据最上层实体,它可以包含多个 Schema。主要适用于元数据隔离的场景。本文为您介绍数据目录(Catalog)的基本操作。
统一 Catalog 层级模型
在统一 Catalog 中,所有元数据都在一个元数据存储(Metastore)中进行注册和存储,Metastore 本身对用户不可见。任何统一目录的元数据对象层级结构分为三个级别,当您引用表、数据卷、模型和函数时,会以三级命名空间(Catalog.Sechme.Table 等)的形式呈现。


第一级:Catalog
数据目录用于组织不同形式的数据资产,目前腾讯云统一 Catalog 中数据目录分为以下类型。
大类 | 小类 | 功能 |
内置数据目录 | Hive Catalog | 完全兼容 Hive Metastore 的内置数据目录,可为 EMR 等产品提供 Metastore Service,替代 MySQL 等 MetaDB(本部分功能开发中)。 |
| Volume Catalog | 面向非结构化数据的数据卷(Volume)目录,可将对象存储等文件系统中的图片、视频、音频关联到 Volume 中,实现对非结构化数据的元信息统一管理。 |
| Model Catalog | 面向 ML 模型文件的内置数据目录,可将 MLFlow 等 MLOps 框架中训练好的 ML 模型注册到 TC-Catalog中,实现 ML 模型文件的全生命周期管理(本部分功能开发中)。 |
外部数据目录 | MySQL、EMR、DLC、TCHouse 等 | 指通过 JDBC 等方式建立与如 MySQL 等外部数据源的连接,实时获取到该数据源的元数据信息。 |
第二级:Scehma
Scehma(也可称为数据库)是数据目录下的二级对下,可根据具体的数据目录类型包含表、视图、数据卷、ML 模型和函数等具象化的实体数据资源。Scehma 将数据和 AI 资产组织成比目录更细化的逻辑类别。
第三级:具体数据资源
在统一 Catalog 数据目录模型的第三级,根据具体数据目录类型不同可为 Table、Volume、Model 等具象化的实体数据资源。
表(Table)/视图(View)
表是托管到统一 Catalog 服务中、按行和列组织数据集合的具体库表。视图是针对一个或多个表保存的查询。
数据卷(Volume)
数据卷是用于关联对象存储或HDFS等文件系统中非结构化数据的逻辑卷。例如,将一个对象存储路径
examplebucket.cos.ap-guangzhou.myqcloud.com/folder/
下的文件(假设有a.jpg/b.csv两个文件)关联到 MyCatalog.MyScehma.MyVolume
后,计算引擎通过 MyCatalog.MyScehma.MyVolume/a.jpg
即可直接访问到图片a。注意:
数据卷(Volume)仅可在类型为 Volume 的数据目录中创建。
模型(Model)
模型是从 MLflow 注册到统一 Catalog 服务中的 ML 模型,本功能正在开发中。
注意:
模型仅可在类型为 Model 的数据目录中创建。
函数(Function)
函数是用户保存到统一 Catalog 服务的自定义函数(UDF),可返回如一个标量值或一组行(本功能规划中)。
新建数据目录
1. 登录 统一 Catalog 服务控制台 。
2. 在数据目录列表页面,单击创建数据目录。
3. 在弹出对话框中输入以下内容:
数据目录名称:输入数据目录名称,不可重名。
数据目录类型:目前支持内置数据目录和外部数据目录,内置数据目录的元数据信息内置存储于腾讯云统一 Catalog 服务中,支持兼容 Hive Metastore 的元数据服务(开发中)和支持费结构化数据统一管理的数据卷(Volume)数据目录类型。外部数据目录是指通过 JDBC 等方式建立与如 MySQL 等外部数据源的连接,实时获取到该数据源的元数据信息。
数据目录类型 | 说明 | 元数据位置 | 支持数据类型 | 适用场景 |
内置数据目录 | TC-Catalog 提供的标准 Metastore Service,支持托管 EMR 中的元数据和提供非结构化数据 Volume 管理 | 统一 Catalog 服务中 | 兼容 Hive Metastore 的标准数据目录(本部分功能开发中) 数据卷(Volume) | EMR 集群元数据托管(开发中) 非结构化数据统一管理 |
外部数据目录 | 指通过 JDBC 等方式建立与如 MySQL 等外部数据源的连接,实时获取到该数据源的元数据信息 | 存储于数据源,通过连接实时拉取元数据 | MySQL、EMR-Hive、DLC、TCHouse等 | 跨源联合分析 |
描述:可选,输入描述信息。
查看数据目录
1. 在统一 Catalog 服务左侧菜单栏,选择数据目录,在树状数据目录浏览器可选择对应数据目录以及旗下如 Schema、Table 等层级进行查看。
2. 选择一个数据目录后,在右侧表单上方的详情中,可查看数据目录的基本信息,如希望关注某个目录或 Table,可点击上方星号收藏 。


编辑数据目录
1. 在数据目录列表页面,找到需要修改的数据目录,在右侧操作选项中选择编辑。
2. 在弹出对话框中修改对应数据目录的设置信息。
删除数据目录
在数据目录列表页面,找到需要修改的数据目录,在右侧操作选项中选择删除。
警告:
在同一 Catalog 中删除数据目录为元数据层面操作,对应数据物理文件不会被删除。