数据管理

最近更新时间:2025-09-24 17:05:01

我的收藏
多模态智能数据湖 TCLake 以 Serverless 形态提供服务,数据资源对象以元数据为实体展示,数据目录(Catalog)最上层实体,它可以包含多个 Schema。主要适用于元数据隔离的场景。本文为您介绍数据目录(Catalog)的基本操作。

数据目录层级模型

在 TCLake 中,所有元数据都在一个元数据存储(Metastore)中进行注册和存储,Metastore 本身对用户不可见。任何统一目录的元数据对象层级结构分为三个级别,当您引用表、数据卷、模型和函数时,会以三级命名空间(Catalog.Sechme.Table 等)的形式呈现。




第一级:Catalog

数据目录用于组织不同形式的数据资产,目前腾讯云多模态智能数据湖 TCLake 中数据目录分为以下类型。
大类
小类
功能
内置数据目录
LakeHouse Catalog
结构化数据目录,内置 TCIceberg 批流一体开放表格式托管,兼容 Hive MetaStore。
Volume Catalog
面向非结构化数据的数据卷(Volume)目录,可将对象存储等文件系统中的图片、视频、音频关联到 Volume 中,实现对非结构化数据的元信息统一管理。
Model Catalog
面向 ML 模型文件的内置数据目录,可将 MLFlow 等 MLOps 框架中训练好的 ML 模型注册到Catalog中,实现 ML 模型文件的全生命周期管理(本部分功能开发中)。
外部数据目录
MySQL、EMR、DLC、TCHouse 等
指通过 JDBC 等方式建立与如 MySQL 等外部数据源的连接,实时获取到该数据源的元数据信息。

第二级:Scehma

Scehma(也可称为数据库)是数据目录下的二级对下,可根据具体的数据目录类型包含表、视图、数据卷、ML 模型和函数等具象化的实体数据资源。Scehma 将数据和 AI 资产组织成比目录更细化的逻辑类别。

第三级:具体数据资源

数据目录模型的第三级,根据具体数据目录类型不同可为 Table、Volume、Model 等具象化的实体数据资源。

表(Table)/视图(View)

表是托管到 TCLake 服务中、按行和列组织数据集合的具体库表。视图是针对一个或多个表保存的查询。

数据卷(Volume)

数据卷是用于关联对象存储或HDFS等文件系统中非结构化数据的逻辑卷。例如,将一个对象存储路径 examplebucket.cos.ap-guangzhou.myqcloud.com/folder/ 下的文件(假设有a.jpg/b.csv两个文件)关联到 MyCatalog.MyScehma.MyVolume 后,计算引擎通过 MyCatalog.MyScehma.MyVolume/a.jpg 即可直接访问到图片a。
注意:
数据卷(Volume)仅可在类型为 Volume 的数据目录中创建。

模型(Model)

模型是从 MLflow 注册到 Catalog 中的 ML 模型,本功能正在开发中。
注意:
模型仅可在类型为 Model 的数据目录中创建。

函数(Function)

函数是用户保存到 Catalog 的自定义函数(UDF),可返回如一个标量值或一组行(本功能规划中)。

新建数据目录

2. 在数据目录列表页面,单击创建数据目录
3. 在弹出对话框中输入以下内容:
配置项
说明
数据目录类型
数据目录类型,包括 LakeHouse(结构化)、Volume(数据卷)、Model(模型)、Connection (外部链接)四种类型
Catalog名称
必选,唯一标识,不可重名。
描述
可选,输入描述信息。
存储类型
标准存储。
4、阅读并勾选计费说明,创建 Catalog。

查看数据目录

1. 在服务左侧菜单栏,选择数据目录,在树状数据目录浏览器可选择对应数据目录以及旗下如 Schema、Table 等层级进行查看。
2. 选择一个数据目录后,在右侧表单上方的详情中,可查看数据目录的基本信息,如希望关注某个目录或 Table,可点击上方星号收藏 。


编辑数据目录

1. 在数据目录列表页面,找到需要修改的数据目录,在右侧操作选项中选择编辑
2. 在弹出对话框中修改对应数据目录的设置信息。

删除数据目录

在数据目录列表页面,找到需要修改的数据目录,在右侧操作选项中选择删除
警告:
LakeHouse Catalog 删除同时会删除托管存储在数据目录中的数据。