多模态智能数据湖 TCLake 以 Serverless 形态提供服务,数据资源对象以元数据为实体展示,数据目录(Catalog)最上层实体,它可以包含多个 Schema。主要适用于元数据隔离的场景。本文为您介绍数据目录(Catalog)的基本操作。
数据目录层级模型
在 TCLake 中,所有元数据都在一个元数据存储(Metastore)中进行注册和存储,Metastore 本身对用户不可见。任何统一目录的元数据对象层级结构分为三个级别,当您引用表、数据卷、模型和函数时,会以三级命名空间(Catalog.Sechme.Table 等)的形式呈现。


第一级:Catalog
数据目录用于组织不同形式的数据资产,目前腾讯云多模态智能数据湖 TCLake 中数据目录分为以下类型。
大类 | 小类 | 功能 |
内置数据目录 | LakeHouse Catalog | 结构化数据目录,内置 TCIceberg 批流一体开放表格式托管,兼容 Hive MetaStore。 |
| Volume Catalog | 面向非结构化数据的数据卷(Volume)目录,可将对象存储等文件系统中的图片、视频、音频关联到 Volume 中,实现对非结构化数据的元信息统一管理。 |
| Model Catalog | 面向 ML 模型文件的内置数据目录,可将 MLFlow 等 MLOps 框架中训练好的 ML 模型注册到Catalog中,实现 ML 模型文件的全生命周期管理(本部分功能开发中)。 |
外部数据目录 | MySQL、EMR、DLC、TCHouse 等 | 指通过 JDBC 等方式建立与如 MySQL 等外部数据源的连接,实时获取到该数据源的元数据信息。 |
第二级:Scehma
Scehma(也可称为数据库)是数据目录下的二级对下,可根据具体的数据目录类型包含表、视图、数据卷、ML 模型和函数等具象化的实体数据资源。Scehma 将数据和 AI 资产组织成比目录更细化的逻辑类别。
第三级:具体数据资源
数据目录模型的第三级,根据具体数据目录类型不同可为 Table、Volume、Model 等具象化的实体数据资源。
表(Table)/视图(View)
表是托管到 TCLake 服务中、按行和列组织数据集合的具体库表。视图是针对一个或多个表保存的查询。
数据卷(Volume)
数据卷是用于关联对象存储或HDFS等文件系统中非结构化数据的逻辑卷。例如,将一个对象存储路径
examplebucket.cos.ap-guangzhou.myqcloud.com/folder/
下的文件(假设有a.jpg/b.csv两个文件)关联到 MyCatalog.MyScehma.MyVolume
后,计算引擎通过 MyCatalog.MyScehma.MyVolume/a.jpg
即可直接访问到图片a。注意:
数据卷(Volume)仅可在类型为 Volume 的数据目录中创建。
模型(Model)
模型是从 MLflow 注册到 Catalog 中的 ML 模型,本功能正在开发中。
注意:
模型仅可在类型为 Model 的数据目录中创建。
函数(Function)
函数是用户保存到 Catalog 的自定义函数(UDF),可返回如一个标量值或一组行(本功能规划中)。
新建数据目录
1. 登录 多模态智能数据湖 TCLake 服务控制台 。
2. 在数据目录列表页面,单击创建数据目录。
3. 在弹出对话框中输入以下内容:
配置项 | 说明 |
数据目录类型 | 数据目录类型,包括 LakeHouse(结构化)、Volume(数据卷)、Model(模型)、Connection (外部链接)四种类型 |
Catalog名称 | 必选,唯一标识,不可重名。 |
描述 | 可选,输入描述信息。 |
存储类型 | 标准存储。 |
4、阅读并勾选计费说明,创建 Catalog。
查看数据目录
1. 在服务左侧菜单栏,选择数据目录,在树状数据目录浏览器可选择对应数据目录以及旗下如 Schema、Table 等层级进行查看。
2. 选择一个数据目录后,在右侧表单上方的详情中,可查看数据目录的基本信息,如希望关注某个目录或 Table,可点击上方星号收藏 。

编辑数据目录
1. 在数据目录列表页面,找到需要修改的数据目录,在右侧操作选项中选择编辑。
2. 在弹出对话框中修改对应数据目录的设置信息。
删除数据目录
在数据目录列表页面,找到需要修改的数据目录,在右侧操作选项中选择删除。
警告:
LakeHouse Catalog 删除同时会删除托管存储在数据目录中的数据。