数据发现是 WeData 中面向全域数据资产的统一搜索与浏览入口。通过整合多种数据源中的元数据,为用户提供一个能够快速查找、理解和评估数据资产的平台级能力。用户可在数据治理页面单击数据资产,然后在左侧导航栏选择数据发现进入相应页面。

搜索框
数据发现页顶部为搜索框,您可以根据自己需求重新设定关键词搜索。在搜索框左侧,可以按照“数据表”“指标”进行搜索,也可以默认选择全部资产类型进行搜索。在搜索框旁,用户可以通过单击我的收藏进入我的收藏模块;单击最近浏览,展现最近的10条浏览记录,可以直接单击进入详情页。
搜索区域
数据发现页左侧为搜索区域,包含资产盘点中上架和未上架的所有资产,分成“数据表”和“指标”两个tab页。能够根据资产的数据源类型,数据源,数据库等条件,进一步细化搜索结果。
所有筛选项包括:资产目录、数据源类型、数据源、数据库、负责人、所属项目、资产等级、数仓分层、资产标签、资产状态、搜索范围。
搜索结果
搜索结果会按照匹配度对相关的数据资产进行排序。搜索结果包含数据表和指标两个tab页,数据表列表包括数据源类型、负责人、资产目录、标签、字段等信息,提供查看血缘,权限申请,收藏/取消收藏等功能;指标列表包含指标名称、描述、指标类型、负责人、资产目录等信息。
数据表搜索结果
根据匹配度,展示相应的数据表,搜索关键词会标黄。支持按照我负责的/我收藏的,对搜索结果进行筛选,同时支持按照表名排序,或者热度排序。
展示形式支持卡片视图和表格视图,默认展示卡片视图,单击卡片视图支持切换到“表格视图”,在设置中调整展现的字段方便进行查找和检视。在设置按钮中,可以按照偏好调整选择侧滑或者新窗口跳转。

指标搜索结果
根据匹配度进行指标搜索结果的展示,关键词会标黄。支持按照我负责的/我收藏的,对搜索结果进行筛选,同时支持按照表名排序,或者热度排序。
展示形式支持卡片视图和表格视图,默认展示卡片视图,单击卡片视图支持切换到“表格视图”,在设置中调整展现的字段方便进行查找和检视
单击表名和指标名,可以进入到表详情页和指标详情页。


表详情
说明:
由于不同数据源类型支持程度不一致,所以并不是所有类型都包含以下功能,请以页面实际展示结果为主。
在数据治理的各个功能相应的页面下,单击需要查看的表名即可进入表详情页面。根据数据源的不同,表详情页面包含了表的业务信息、技术信息、资产评分,基础信息、数据预览、产出与变更、数据血缘、数据温度、分区信息、数据质量、访问日志和使用说明。

业务信息
展示当前数据表的资产目录、标签、资产状态、重要等级、发布时间、所属项目、资产负责人和数仓分层。
业务信息可以在界面右上方“修改业务信息”打开弹窗进行修改调整。
技术信息
展示当前数据表的数据源类型、数据源、数据库、采集任务、引擎侧 Owner、引擎 ID、表类型、储存量、存储路径、生命周期、最近数据及 DDL 变更、创建时间和元数据来源。
资产评分
各项指标综合平均分,满分100,按天更新。

完善性:当前技术与业务信息的完善情况。
保障性:当前质量监控、访问控制情况。
及时性:近30天内数据按时产出情况。
稳定性:近30天内表结构变更情况。
规范性:暂未上线。
基础信息
提供编辑、查看 DDL 和查看 Select 功能,并展示字段名称、字段类型、字段描述、使用说明、安全等级和安全分类。

分区信息
分区信息包含了分区字段信息和分区的详细内容。

数据预览
预览该数据表内容,最多支持展示前5条数据,T+1更新数据。

产出与变更
产出信息:通过产出任务/实例时间进行筛选,展示任务 ID、第几次执行、计划调度时间、开始时间、产出时间、执行耗时和产出耗时。
变更信息:展示近30天内,表的变更记录,包括变更时间、变更类型、变更日志、操作人和影响表数。
血缘关系
WeData 血缘关系展示了主账号下所有项目内数据流转全链路,包括数据来源、去向、以及关联任务等。血缘关系功能提供了表/字段级血缘和影响分析,包含任务中使用的正式数据表的表间血缘。当前版本血缘关系功能支持同步任务、Hive SQL 任务血缘解析,主要覆盖 MySQL、Hive 两类表血缘。

血缘关系功能主要展示中心表/字段上下游数据流向和影响分析,默认仅展示中心表直接一级上下游表血缘,可在画布中进行血缘关系追溯、切换展示对象粒度等操作。主要功能及操作如下:
参数 | 说明 |
表血缘/字段血缘/影响分析 | 支持切换表/字段维度展示血缘关系 表血缘:以表为粒度展示表间上下游关系,画布中一个节点表示一张表。默认展示中心表直接一级上下游正式表血缘。 字段血缘:以字段为粒度展示表间某一字段的上下游关联字段,画布中一个节点表示一个字段。字段血缘默认以表的第一个字段作为中心。 影响分析:以当前表为核心,分析该表对任务和表的影响和依赖关系。 |
地图/层级模式 | 表血缘支持全表追溯/某一个单一链路追溯两种模式,默认按照地图模式追溯。 |
搜索 | 支持搜索画布中已经存在的表/字段,搜索后该对象将会在画布中居中展示。 |
画布工具:放大/缩小/还原/全屏 | 设置血缘画布及节点大小。 |
血缘画布 | 展示表/字段间血缘: ![]() 表/字段:画布中一个节点表示表/字段,默认以进入表详情页面的表作为画布中心表,该中心表左右两侧表示其关联上下游表/字段。 名称:表/字段名称,非中心表/字段可单击节点上方链接快速进入该表详情页面。 上游对象数:上游一级表/字段数量,若为0表示无上游。 下游对象数:下游一级表/字段数量,若为0表示无下游。 数据流向:箭头方向代表数据流动方向,左侧为来源数据,右侧为去向数据。 关联任务:单击箭头可查看产生此条数据血缘关联的同步/SQL 任务信息。 展开/收起:单击画布中节点上游/下游数字即可展开/收起该对象的上游/下游。若表/字段位于中心节点的下游,单击后仅展开其下游对象;反之,仅展开上游。 快捷展开:表血缘 > 地图模式下支持选择目标对象右键快捷展开上/下游多层级血缘。 |
表血缘
表血缘默认展示中心表直接一级上下游关联表数、上下游关联表、任务,支持选择目标表进行上/下游血缘追溯,一次展开所选表直接一级的全部上游/下游表,同级其他表血缘关系保持展开状态不变。

字段血缘
字段血缘以中心表的第一个字段作为初始化对象,默认展开该字段直接一级上下游关联量、上下游关联表、任务,支持选择目标字段进行上/下游血缘追溯。可单击画布左上侧的字段选择器切换展示字段。

影响分析
以当前表为核心,分析该表对任务和表的影响和依赖关系,以下为首次使用页面:

单击立即分析后,进入分析过程,该过程可能会持续数分钟至几十分钟。分析完成后,展示分析结果:

当前分析结果默认保留1个月,过期后重新分析即可。
受影响表(2):显示关联的数据表对象(如图中 default.cleanedcarsales)。
受影响任务(3):显示关联的数据处理任务(数据集成/SQL计算任务等)。
下载明细:单击下载明细导出 Excel 格式影响清单,包含影响表和任务。
重新分析:由于血缘是随着时间动态变化的,建议每次都重新分析以获取最新的影响结果。
系统自动标注“最近一次分析时间”(保留1个月历史)例:2025-07-18 17:43:06 需评估此时点后是否发生变更。当前只支持下游影响分析。
当前约束:目前只支持分析下游影响。
数据温度
数据温度提供了温度趋势及频繁访问的任务信息。
温度趋势:近七天数据访问次数和表详情浏览次数。
频繁访问:近30天访问最频繁的任务(任务 ID、访问类型、任务状态、归属项目、所属工作流、责任人和次数)。

数据质量
数据质量提供数据表配置的质量监控规则、以及表的数据仪表盘质量概览。

对于EMR-hive表,支持在此创建数据分析仪表盘,查看推理/profiling/数据漂移相关指标。其他类型的表无数据质量仪表盘入口。
说明:
1、仅表负责人、资产管理员及项目管理员具备仪表盘开启权限,且操作用户需归属所选数据源对应的项目下,方可执行该操作。

操作步骤
1、在数据资产>表详情>数据质量 tab下,开启数据质量仪表盘开关
2、填写仪表盘参数

元素 | 说明 |
执行资源 | 此处的执行资源即项目已经绑定的调度资源组。 |
执行引擎 | 此处可选择 Hive 和 Spark,与购买的 EMR 资源有关,一般情况下 Hive 表可直接选择 Hive 引擎。 |
计算资源 | 选择 default 此处可选择 EMR 集群中的资源组,一般情况下可直接选择 default。 |
分析类型 | 选择该表的分析类型。可选 推理表、时序表、快照表 |
元素 | 说明 |
问题类型 | 模型输出结果的类型,支持推理和回归 |
预测列 | 模型训练的目标列。读取表中所有字段,请根据业务所属选择 |
标签列 | 模型输出的预测结果列。读取表中所有字段,请根据业务所属选择 |
模型ID列 | 模型的唯一标识字段。读取表中所有字段,请根据业务所属选择 |
时间戳列 | 读取表中字段类型是timestamp类型的字段,请根据业务所属选择 |
统计周期 | 对选定的表、按分钟、小时、天、周、月周期性质量检测。 |
统计时间 | 质量任务只针对当前周期内的数据行(即增量数据)进行计算,历史数据不会更新 |
间隔 | 统计的间隔。根据业务选择。 |
指标粒度 | 统计计算的最小维度和精细程度。每次计算指标,是针对时间戳在同一指标粒度内的全部数据行。 注:指标粒度为30分钟时,仅计算近3个月的数据。 |
基线数据表 | 选填。以某一固定时间点或标准状态为基准,用于对比分析数据变化的参照数据。用于计算漂移相关指标。若未填写,漂移指标计算结果为空 |
元素 | 说明 |
时间戳列 | 读取表中字段类型是timestamp类型的字段,请根据业务所属选择 |
统计周期 | 对选定的表、按分钟、小时、天、周、月周期性质量检测。 |
统计时间 | 质量任务只针对当前周期内的数据行(即增量数据)进行计算,历史数据不会更新 |
间隔 | 统计的间隔。根据业务选择。 |
基线数据表 | 选填。以某一固定时间点或标准状态为基准,用于对比分析数据变化的参照数据。用于计算漂移相关指标。若未填写,漂移指标计算结果为空 |
基线数据表 | 选填。以某一固定时间点或标准状态为基准,用于对比分析数据变化的参照数据。用于计算漂移相关指标。若未填写,漂移指标计算结果为空 |
3、点击确定,创建仪表盘。
4、查看仪表盘数据。
说明:
1、对于已有仪表盘数据的表,无权限操作的用户支持查看当前状态的图表/指标数据。 仅可查看当前状态,不可编辑,不可下拉筛选其他条件查看,不可删除。
2、显示为“-”表示该指标无数据值
不同类型表仪表盘展示的图表/指标有差异。
对于推理表,可查看字段分析数据、回归/分类指标、数据漂移指标。
字段分析
字段分析包含:字段名称、数据类型、最小值、最大值、中位数、平均值、唯一值个数、唯一值率、最小长度、最大长度、平均长度。

查看推理分析数据
当选择的是回归模型时,展示值为:均方误差、均方根误差、平均绝对误差、平均绝对百分比误差、决定系数R2分数。

可通过输入表内模型ID值重新计算指标值。
可通过选择日期查看不同时间范围内的数值。
当选择的是分类模型时,展示分类模型指标和公平性和偏差。
分类指标展示统计值和图表,统计值为:准确率、精确率、召回率、F1分数;图表为分类指标趋势图和混淆矩阵图。

公平性和偏差
需输入对比列,保护组值,正类值。

点击确定按钮,等待质量任务运行成功后,即可查看统计值和图表。
统计值为:预测奇偶性、预测平等性、机会均等性、统计奇偶性;图表为公平率趋势图
说明:
1. 任务未运行完成之前,无法看到统计结果。
2. 任务运行状态可在“配置信息”中查看。


查看数据偏移指标
说明:
1. 创建完仪表盘后,需选择特征列方可计算数据偏移指标。
2. 基线数据表和监控表的特征列必须完全对齐(字段名称、字段类型、字段含义、取值范围一致),否则两者无法进行有效对比,漂移指标会因 “无匹配维度” 返回空结果。

展示结算结果:

对于时序表,可查看字段分析数据、数据漂移指标。
字段分析数据展示字段图表。字段包含:字段名称、数据类型、最小值、最大值、中位数、平均值、唯一值个数、唯一值率、最小长度、最大长度、平均长度。

查看数据偏移指标:

数值型指标有:KS检验、瓦瑟斯坦距离、群体稳定性指数。
分类型指标有:卡方检验、L无穷距离、JS散度。
对于时序表,可查看字段分析数据、数据漂移指标。
字段分析数据展示字段图表。字段包含:字段名称、数据类型、最小值、最大值、中位数、平均值、唯一值个数、唯一值率、最小长度、最大长度、平均长度。

查看数据偏移指标:

数值型指标有:KS检验、瓦瑟斯坦距离、群体稳定性指数。
分类型指标有:卡方检验、L无穷距离、JS散度。
停用仪表盘
关闭开关表示停用仪表盘,停用后仪表盘将不再统计,历史数据不会清空。如有需要可以重新开启。

编辑仪表盘
可通过点击编辑按钮,更新仪表盘的配置。
说明:
除所属项目、分析类型、问题类型不可修改外,其他项均支持修改。

删除仪表盘
可通过点击删除按钮,删除当前仪表盘。删除后,仪表盘数据不可恢复,只能重新创建。

配置信息
通过配置信息查看仪表盘的配置参数和运行记录。

实例执行状态同数据质量任务。
访问日志
访问日志提供数据表被访问情况的统计概览,包括访问日期、访问账号、任务 ID、访问类型、执行次数等信息。

使用说明
提供可编辑的页面,便于用户填写表的使用说明等业务信息。
数据库详情
进入数据资产> 我的数据> 我管理的界面,您可以找到您管理的数据库列表和数据库详情。同时,在治理中心>资产盘点 > 数据表页面,表的技术信息中将会展示此资产的数据库,单击即可查看该数据库详情。

数据库概要
数据库概要展示了该数据库下的总表数和总储存量。
基础信息
基础信息主要展示了数据源类型、关联数据源、采集任务、引擎 ID、归属项目、创建人和创建时间。单击采集任务的链接,即可跳转至对应采集任务的详情。
表列表
表列表主要展示了该数据库下所有数据表名称、负责人、重要等级、标签、资产目录、发布状态、存储量、以及其更新时间。单击表名后,将会跳转至表详情页面。
表列表同时支持资产盘点中的批量操作,例如,一键转交、批量修改资产目录、批量修改标签、批量修改重要等级、批量修改生命周期、收藏。
数据源详情
在治理中心 > 资产盘点 > 表详情页面,表的技术信息中将会展示此资产的数据源以及关联的数据源,单击即可查看该数据源详情。数据源详情页面包含了数据源概要、基础信息、以及源下所有的数据库和数据表。

数据源概要
数据源概要展示了该数据源下的总库数和总表数。
基础信息
基础信息主要展示了数据源名、数据源类型、引擎ID、创建人、创建时间、归属项目、授权项目、采集任务、同源采集任务等信息。同时,单击采集任务的链接可以跳转至对应采集任务的详情。
库列表
库列表主要展示了该数据源下所有数据库名称,储存量以及其归属项目。您可以在此批量修改该数据源下数据库的归属项目。单击库名称后,将会跳转至该库的数据库详情页面。
表列表
表列表主要展示了该数据源下所有数据表名称、数据库名 .Schema、负责人、重要等级、标签、资产目录、发布状态、存储量、以及其更新时间。单击表名后,将会跳转至表详情页面。
表列表同时支持资产盘点中的批量操作,例如,一键转交、批量修改资产目录、批量修改标签、批量修改重要等级、批量修改生命周期、收藏。
