进入数据管理页面
1. 登录 数据开发治理平台 WeData 控制台。
2. 单击左侧菜单中的项目列表,找到需要操作数据管理功能的目标项目。
3. 选择项目后,单击进入离线开发模块。
4. 单击左侧菜单中的数据管理。
数据管理概览
当前 WeData 数据管理支持 EMR、DLC 引擎中系统源的 Hive 与 DLC 数据库表创建。
注意:
在项目管理页面绑定存算引擎后,才可以在数据管理目录中显示数据源。
数据管理目录
目录树用于展示数据源中所有数据库表的层次结构和关系,可以通过此功能实现以下作用:
快速定位目标表。通过目录树功能,用户可以快速定位到目标表所在的位置,提高了操作效率,减少了操作时间和出错的可能性。
展示数据库表之间的关系。通过目录树功能,用户可以清晰地看到数据库表之间的层次结构和关系,便于分析和理解数据库表之间的关联和依赖。
管理和维护数仓。通过目录树功能,用户可以按数仓分层对数据库进行分类和管理,便于对数据库进行维护和调整,例如,删除或更改表名、字段等操作。
方便的搜索功能。通过目录树的搜索框功能,用户可以方便地浏览和搜索数据库表,并跳转到目标表进行操作。
数据范围:
数据管理提供了多种数据范围,方便用户分类访问数据:

全部库表:展示当前数据源下所有的库表数据。
当前项目:展示当前数据源下归属项目为当前项目的所有库表数据。
库表搜索
搜索功能是用于帮助用户快速定位和浏览目标数据库表或数据集,它可以为用户提供清晰的层次结构视图和快速搜索功能,让用户轻松地找到所需数据,从而提高数据管理和查询的效率。
在搜索窗口输入数据库或数据表名称,库表目录即可搜索到对应名称的库表结构。搜索功能支持模糊检索。

刷新目录
目录树的刷新功能是用于重新加载数据源、数据库与数据表,以便更新目录树中显示的内容。可以帮助用户更新和同步数据源中的最新数据,保证用户获取到最新的数据表信息。

数据库管理
新建数据库
根据绑定的数据源不同,可以在 Hive 或 DLC 数据源下创建数据库。
在数据管理目录中,单击新建数据库,根据提示选择数据源类型、数据源,自定义数据库名及描述信息(选填),配置完成后即可在对应数据源中将数据库创建出来。


Hive 数据库

Hive 建库信息:
信息 | 描述 |
所属项目 | 该库的所属项目,默认为当前项目。 |
数据源类型 | 选择 Hive 类型。 |
数据源 | 选择 Hive 类型数据源。 |
数据库名 | 自定义 Hive 数据库名称。 |
描述 | 选填,自定义描述内容。 |
授权信息 | 项目共享:默认项目中成员获得该表的读写权限,表创建人和项目管理员获得该表的编辑和读写权限。 仅个人与管理员:表创建人和项目管理员获得该表的编辑和读写权限。 |
DLC 数据库
如果是在 DLC 数据源下创建数据库,可以为数据库配置事件策略与治理规则。


DLC 建库信息:
信息 | 描述 | |
基本信息配置 | 数据源类型 | 选择 DLC 类型。 |
| 数据源 | 选择 DLC 类型数据源。 |
| 数据库名 | 自定义 DLC 数据库名称。 |
| 描述 | 选填,自定义描述内容。 |
事件策略配置 | AddDataFiles | 设置增加的文件数量最大值,超过该值将触发小文件合并。 |
| AddPositionDeletes | 增加的 Position delete 最大数值,超过该值将触发小文件合并。 |
| AddEqualityDeletes | 增加的 Equality delete 最大数值,超过该值将触发小文件合并。 |
| AddDeleteFiles | 增加的 delete file 数量,过期快照的 AddDataFiles+AddDeleteFiles 的总和大于阈值 AddDataFiles+AddDeleteFiles 时,将从该快照处删除快照。 |
治理规则配置 | 小文件合并 | 启用后大量小于阈值的数据文件将被合并为更大的文件,减少文件数量,提升查询性能。 |
| 删除过期快照 | 启用后将自动清理过期的历史快照信息,减少元数据/数据文件数量,节约存储空间,提升查询速度。 |
| 删除孤立文件 | 启用后将自动定期清理无效的数据文件,节约存储空间。 |
| 元数据合并 | 启用后将自动合并元数据 manifests 文件,减少 manifests 文件数量,提高数据查询效率。 |
权限配置 | 访问类型 | 包括:查询分析、数据编辑、所有者;具体权限如下: ![]() |
删除数据库
在数据管理目录树中将光标移动到需要删除的数据库,单击
展开数据库操作菜单,再单击删除数据库,在弹框中确定后即可删除对应数据库。


注意:
删除库后无法恢复,请谨慎删除。
数据表管理
注意:
在创建数据表之前,先要完成数据库创建。
在数据管理目录中,单击可视化建表,在弹窗中根据提示选择数据源、数据库,表名,配置完成后单击确定即可进入数据表的基本属性与字段设计页面。

Hive 数据表
1. 使用 EMR 作为存算引擎时,可以在数据管理中的 Hive 数据源下创建 Hive 数据表。
注意:
需要 EMR 的集群中启动 Hive 服务。如果 Hive 开启了 Ranger,需要确保 ranger 的用户名和密码正确。暂时尚未提供字段的修改和添加功能。

2. 将新建表弹框中的基本信息填写完成后,即可进入数据表设计页面,需要配置表基础信息、字段信息等。注意在建表时,可以设置该表对应的“数仓分层”、“资产目录”、“更新周期”,系统会据此给出推荐表名,用户点击去应用则可以将推荐表名填充。规范表名更利于对数据表的统一管理和维护。

3. Hive 建表配置:
信息 | 描述 |
建表方式 | 可视化建表 使用传统的手动添加字段,插入字段后自定义字段名、字段中文名、字段英文名、列类型、是否分区、描述。 ![]() DDL 建表 使用 SQL 建表语句创建数据表,新建表仅支持 CREATE TABLE 语句,编辑表仅支持 ALTER TABLE ADD / REPLACE COLUMNS 语句。 ![]() 例:
![]() 注意: DDL 建表过程中,需要保证建表语句的表名部分与新建数据表时输入的名称一致。 |
表权限 | 项目共享 将数据表权限归属于当前项目,项目内所有成员均会获得数据表权限,包括编辑、查询、删除等操作。 仅个人与管理员 将数据表权限归属于创建者个人与当前项目的管理员。 (说明:数据权限生效时间预计需要30秒左右) |
生命周期 | EMR-Hive 表不支持配置生命周期,当前配置不生效,请知晓(会在后续迭代中去掉该配置项)。 |
存储类型 | 支持选择四种类型的存储方式: TEXTFILE:是一种文本格式的存储类型,存储的是纯文本文件,每一行代表一个记录。 PARQUET:是一种列式存储格式,它将数据分成行和列,并按列存储到磁盘上。它在某些场景下比行式存储更快,而且支持基于列的压缩。 ORC:是一种优化的列存储格式,可用于存储和处理大规模数据。它使用更高级的压缩算法和索引技术,能够提高处理速度和查询效率。 CSV:是一种常见的文本格式,以逗号作为字段之间的分隔符,并在每个字段值周围用引号进行标记。 |
字段分隔符 | 将数据表中的每个字段分离,以便在程序或系统中进行读取和处理。支持五种字段分隔符类型:\\u0001(Hive 默认)、|(竖线)、(空格)、;(分号)、,(逗号)、\\t(制表符) |
字段配置 | 一个字段包含字段名、字段描述、列类型、是否分区等配置信息。 分区字段说明:字段不能全选为分区字段,至少要有一个非分区字段。分区字段不支持array、map、decimal类型。 |
4. 将数据表基本属性与字段配置完成后,单击左上角保存即可完成数据表创建,在左侧数据管理目录中可以看到创建完成的数据表。
DLC 数据表
1. 使用 DLC 作为存算引擎时,可以在数据管理中的 DLC 数据源下创建 DLC 数据表。
注意:
当前 DLC 建表只支持可视化建表,DDL 建表尚未支持,请直接在数据开发的 SQL 语句中创建。

2. 将新建表弹框中的基本信息填写完成后,即可进入数据表设计页面,需要配置数据表格式、字段信息、参数属性。

3. DLC 建表配置:
信息 | 描述 | |
技术信息 | 表分类 | 可选择创建原生表或外部表。 原生表: ![]() 数据表类型:可选择“空表”,“对象存储COS”,当选择“对象存储COS”,需要指定COS路径和数据格式: 数据格式:支持CSV、JSON、PARQUET、ORC、AVRO。 ![]() 数据表版本:选择 V1 或 V2 的数据表版本,选择 V2 的数据表版本时,可以选择是否使用 upsert 写入。 外部表: ![]() 存储路径:对象存储 COS 与外部表需要填写 location 全路径。 数据格式:支持CSV、JSON、PARQUET、ORC、AVRO。 |
| 是否分区表 | 选择表是否为分区表,当该表为分区表时,需要填写分区信息: ![]() |
字段信息 | 字段名 | 设计表字段名称。 |
| 字段类型 | 支持 DLC 数据表字段类型。 |
| 描述 | 自定义字段描述信息。 |
| 是否使用分区 | 设计分区,包括分区字段、转换策略与策略参数。 |
| 事件策略配置 | AddDataFiles:设置增加的文件数量最大值,超过该值将触发小文件合并。 |
| | AddPositionDeletes:增加的 Position delete 最大数值,超过该值将触发小文件合并。 |
| | AddEqualityDeletes:增加的 Equality delete 最大数值,超过该值将触发小文件合并。 |
| | AddDeleteFiles:增加的 delete file 数量,过期快照的 AddDataFiles + AddDeleteFiles 的总和大于阈值 AddDataFiles + AddDeleteFiles 时,将从该快照处删除快照。 |
| 治理规则配置 | 支持开启数据表治理规则,治理规则配置项可以选择继承当前数据表创建时所选数据库的治理规则,或为数据表自定义治理规则。包括以下治理规则: 小文件合并:启用后大量小于阈值的数据文件将被合并为更大的文件,减少文件数量,提升查询性能。 删除过期快照:启用后将自动清理过期的历史快照信息,减少元数据/数据文件数量,节约存储空间,提升查询速度。 删除孤立文件:启用后将自动定期清理无效的数据文件,节约存储空间。 元数据合并:启用后将自动合并元数据 manifests 文件,减少 manifests 文件数量,提高数据查询效率。 |
属性设置 | 参数配置 | 支持自定义数据表参数配置,例如 format-version、write.upsert.enabled。 ![]() |
上传数据表
1. 在数据管理目录或数据管理主界面中,单击上传文件建表,目前只支持 Hive 类型数据表上传创建。
注意:
1. 目前提供 CSV、TSV 文件的上传,文件最大100 M。
2. 需要在 WeData 项目中绑定 EMR 集群,有对应的 Hive 服务。
3. 如果在项目管理中配置了 ranger,需要 ranger 的用户名和密码正确。
4. COS 桶设置的 EMR_QCSRole 角色对 COS 的访问权限要放开,不然导数据会报 COS 路径有问题。

2. 在弹窗中根据提示选择数据源类型、数据源、数据库、存储桶、自定义数据表名以及选择上传的建表资源。


3. 上传文件配置:
信息 | 描述 |
数据源类型 | 支持 Hive 类型数据源。 |
数据源 | 选择对应数据源类型下的 WeData 数据源。 |
数据库 | 显示当前项目绑定的 Hive 数据库,根据数据源类型联动。支持按照库名称进行搜索。 |
存储桶 | 用于临时存储上传文件的 COS 桶。 |
表名 | 默认自动带入去掉后缀名的上传文件名,可自定义名称。 |
上传资源 | 单击上传或拖拽上传,提供上传进度条。上传格式为:CSV 或 TSV 格式。 |
4. 这里以 CSV 文件为例,数据格式如下:


5. 弹窗信息配置完成后,单击确定即可进入建表页面。


6. 在建表页面中,可以设置数据表权限、表中文名与表描述信息。解析后的上传文件会在页面中提供字段、数据预览,并支持对文件格式、列分隔符、列引号、首行字段确认、文件编码方式、字段属性进行配置。
信息 | 描述 | |
基础属性 | 表权限 | 选择当前数据表创建后的权限归属,在项目内共享或仅个人与管理员可使用。 |
| 中文名 | 默认自动带入去掉后缀名的文件名,可自定义。 |
| 描述 | 自定义数据表描述信息。 |
文件属性 | 数据预览 | 文件解析后仅展示前500行数据,单击重新上传会弹出文件上传弹框用于重新上传建表文件。 ![]() |
| 文件格式 | 下拉选择,支持 CSV、TSV。 |
| 列分隔符 | 用户可以自定义输入,输入单个字符或者类似于 \\u0001 的 Unicode 转义序列。 CSV 默认使用:,(逗号) TSV 默认使用:\\t(制表符) |
| 列引号 | 默认双引号,用户可以切换单引号。 |
| 文件首行是字段名 | 默认否,可以切换为是。 |
| 文件编码方式 | 默认 UTF-8,用户可以选择 UTF-8、GBK、ISO-8859-1。 |
字段属性 | 字段名 | 根据文件首行是字段名属性解析字段名。当文件内数据首行非字段名的情况下,用 column_1、column_2、column_3......column_x 来顺序填充字段名。支持用户可自定义修改字段名。 |
| 列类型 | 根据数据源类型选择对应数据源支持的字段类型。 |
| 描述 | 自定义字段描述信息。 |
7. 在页面中将建表信息配置完成后,单击页面左上角保存,即可生成数据表。

8. 相应的数据表生成进度可以在保存后的进度弹框内查看。当创建步骤运行成功后,数据表即可成功生成。


导出表 DDL
1. 在数据管理目录树中将光标移动到需要导出表 DDL 的数据表所在数据库,单击
展开数据库操作菜单,再单击导出表 DDL。在弹框左侧栏中选择当前数据库下需要导出表 DDL 的数据表,将其添加到右侧栏,确定后即可导出对应数据表的 DDL 文件。



2. 选择需要导出表 DDL 的数据表。


3. 导出后可以在系统的下载目录中看到。


删除数据表
1. 在数据管理目录树中将光标移动到需要删除的数据表,单击
展开数据表操作菜单,再单击删除数据表,在弹框中确定后即可删除对应数据表。


查看表详情
在数据管理目录树中将光标移动到需要查看详情的数据表,单击
展开数据表操作菜单,再单击查看表详情。


点击后跳转至【表详情】页面:
