数据发现

最近更新时间:2026-01-16 14:31:12

我的收藏
数据发现是 WeData 中面向全域数据资产的统一搜索与浏览入口。通过整合多种数据源中的元数据,为用户提供一个能够快速查找、理解和评估数据资产的平台级能力。用户可在数据治理页面单击数据资产,然后在左侧导航栏选择数据发现进入相应页面。


搜索框

数据发现页顶部为搜索框,您可以根据自己需求重新设定关键词搜索。在搜索框左侧,可以按照“数据表”“指标”进行搜索,也可以默认选择全部资产类型进行搜索。在搜索框旁,用户可以通过单击我的收藏进入我的收藏模块;单击最近浏览,展现最近的10条浏览记录,可以直接单击进入详情页。

搜索区域

数据发现页左侧为搜索区域,包含资产盘点中上架和未上架的所有资产,分成“数据表”和“指标”两个tab页。能够根据资产的数据源类型,数据源,数据库等条件,进一步细化搜索结果。
所有筛选项包括:资产目录、数据源类型、数据源、数据库、负责人、所属项目、资产等级、数仓分层、资产标签、资产状态、搜索范围。

搜索结果

搜索结果会按照匹配度对相关的数据资产进行排序。搜索结果包含数据表和指标两个tab页,数据表列表包括数据源类型、负责人、资产目录、标签、字段等信息,提供查看血缘,权限申请,收藏/取消收藏等功能;指标列表包含指标名称、描述、指标类型、负责人、资产目录等信息。
数据表搜索结果
根据匹配度,展示相应的数据表,搜索关键词会标黄。支持按照我负责的/我收藏的,对搜索结果进行筛选,同时支持按照表名排序,或者热度排序。
展示形式支持卡片视图和表格视图,默认展示卡片视图,单击卡片视图支持切换到“表格视图”,在设置中调整展现的字段方便进行查找和检视。在设置按钮中,可以按照偏好调整选择侧滑或者新窗口跳转。

指标搜索结果
根据匹配度进行指标搜索结果的展示,关键词会标黄。支持按照我负责的/我收藏的,对搜索结果进行筛选,同时支持按照表名排序,或者热度排序。
展示形式支持卡片视图和表格视图,默认展示卡片视图,单击卡片视图支持切换到“表格视图”,在设置中调整展现的字段方便进行查找和检视
单击表名和指标名,可以进入到表详情页和指标详情页。




表详情

说明:
由于不同数据源类型支持程度不一致,所以并不是所有类型都包含以下功能,请以页面实际展示结果为主。
在数据治理的各个功能相应的页面下,单击需要查看的表名即可进入表详情页面。根据数据源的不同,表详情页面包含了表的业务信息、技术信息、资产评分,基础信息、数据预览、产出与变更、数据血缘、数据温度、分区信息、数据质量、访问日志和使用说明。

业务信息
展示当前数据表的资产目录、标签、资产状态、重要等级、发布时间、所属项目、资产负责人和数仓分层。
业务信息可以在界面右上方“修改业务信息”打开弹窗进行修改调整。
技术信息
展示当前数据表的数据源类型、数据源、数据库、采集任务、引擎侧 Owner、引擎 ID、表类型、储存量、存储路径、生命周期、最近数据及 DDL 变更、创建时间和元数据来源。
资产评分
各项指标综合平均分,满分100,按天更新。

完善性:当前技术与业务信息的完善情况。
保障性:当前质量监控、访问控制情况。
及时性:近30天内数据按时产出情况。
稳定性:近30天内表结构变更情况。
规范性:暂未上线。
基础信息
提供编辑、查看 DDL 和查看 Select 功能,并展示字段名称、字段类型、字段描述、使用说明、安全等级和安全分类。

分区信息
分区信息包含了分区字段信息和分区的详细内容。

数据预览
预览该数据表内容,最多支持展示前5条数据,T+1更新数据。

产出与变更
产出信息:通过产出任务/实例时间进行筛选,展示任务 ID、第几次执行、计划调度时间、开始时间、产出时间、执行耗时和产出耗时。
变更信息:展示近30天内,表的变更记录,包括变更时间、变更类型、变更日志、操作人和影响表数。
血缘关系
WeData 血缘关系展示了主账号下所有项目内数据流转全链路,包括数据来源、去向、以及关联任务等。血缘关系功能提供了表/字段级血缘和影响分析,包含任务中使用的正式数据表的表间血缘。当前版本血缘关系功能支持同步任务、Hive SQL 任务血缘解析,主要覆盖 MySQL、Hive 两类表血缘。

血缘关系功能主要展示中心表/字段上下游数据流向和影响分析,默认仅展示中心表直接一级上下游表血缘,可在画布中进行血缘关系追溯、切换展示对象粒度等操作。主要功能及操作如下:
参数
说明
表血缘/字段血缘/影响分析
支持切换表/字段维度展示血缘关系
表血缘:以表为粒度展示表间上下游关系,画布中一个节点表示一张表。默认展示中心表直接一级上下游正式表血缘。
字段血缘:以字段为粒度展示表间某一字段的上下游关联字段,画布中一个节点表示一个字段。字段血缘默认以表的第一个字段作为中心。
影响分析:以当前表为核心,分析该表对任务和表的影响和依赖关系。
地图/层级模式
表血缘支持全表追溯/某一个单一链路追溯两种模式,默认按照地图模式追溯。
搜索
支持搜索画布中已经存在的表/字段,搜索后该对象将会在画布中居中展示。
画布工具:放大/缩小/还原/全屏
设置血缘画布及节点大小。
血缘画布
展示表/字段间血缘:

表/字段:画布中一个节点表示表/字段,默认以进入表详情页面的表作为画布中心表,该中心表左右两侧表示其关联上下游表/字段。
名称:表/字段名称,非中心表/字段可单击节点上方链接快速进入该表详情页面。
上游对象数:上游一级表/字段数量,若为0表示无上游。
下游对象数:下游一级表/字段数量,若为0表示无下游。
数据流向:箭头方向代表数据流动方向,左侧为来源数据,右侧为去向数据。
关联任务:单击箭头可查看产生此条数据血缘关联的同步/SQL 任务信息。
展开/收起:单击画布中节点上游/下游数字即可展开/收起该对象的上游/下游。若表/字段位于中心节点的下游,单击后仅展开其下游对象;反之,仅展开上游。
快捷展开:表血缘 > 地图模式下支持选择目标对象右键快捷展开上/下游多层级血缘。
表血缘
表血缘默认展示中心表直接一级上下游关联表数、上下游关联表、任务,支持选择目标表进行上/下游血缘追溯,一次展开所选表直接一级的全部上游/下游表,同级其他表血缘关系保持展开状态不变。

字段血缘
字段血缘以中心表的第一个字段作为初始化对象,默认展开该字段直接一级上下游关联量、上下游关联表、任务,支持选择目标字段进行上/下游血缘追溯。可单击画布左上侧的字段选择器切换展示字段。

影响分析
以当前表为核心,分析该表对任务和表的影响和依赖关系,以下为首次使用页面:
初始化页面
初始化页面

单击立即分析后,进入分析过程,该过程可能会持续数分钟至几十分钟。分析完成后,展示分析结果:

当前分析结果默认保留1个月,过期后重新分析即可。
受影响表(2):显示关联的​​数据表对象​​(如图中 default.cleanedcarsales)。
受影响任务(3):显示关联的​​数据处理任务​​(数据集成/SQL计算任务等)。
下载明细:单击下载明细导出 Excel 格式影响清单,包含影响表和任务。
重新分析:由于血缘是随着时间动态变化的,建议每次都重新分析以获取最新的影响结果。
系统自动标注“最近一次分析时间”(保留1个月历史)例:2025-07-18 17:43:06 需评估此时点后是否发生变更。当前只支持下游影响分析。
当前约束:目前只支持分析下游影响。
数据温度
数据温度提供了温度趋势及频繁访问的任务信息。
温度趋势:近七天数据访问次数和表详情浏览次数。
频繁访问:近30天访问最频繁的任务(任务 ID、访问类型、任务状态、归属项目、所属工作流、责任人和次数)。

数据质量
数据质量提供数据表配置的质量监控规则、以及表的数据仪表盘质量概览。


对于EMR-hive表,支持在此创建数据分析仪表盘,查看推理/profiling/数据漂移相关指标。其他类型的表无数据质量仪表盘入口。
说明:
1、仅表负责人、资产管理员及项目管理员具备仪表盘开启权限,且操作用户需归属所选数据源对应的项目下,方可执行该操作。

操作步骤
1、在数据资产>表详情>数据质量 tab下,开启数据质量仪表盘开关
2、填写仪表盘参数


元素
说明
执行资源
此处的执行资源即项目已经绑定的调度资源组。
执行引擎
此处可选择 Hive 和 Spark,与购买的 EMR 资源有关,一般情况下 Hive 表可直接选择 Hive 引擎。
计算资源
选择 default
此处可选择 EMR 集群中的资源组,一般情况下可直接选择 default。
分析类型
选择该表的分析类型。可选 推理表、时序表、快照表
推理表
时序表
快照表
元素
说明
问题类型
模型输出结果的类型,支持推理和回归
预测列
模型训练的目标列。读取表中所有字段,请根据业务所属选择
标签列
模型输出的预测结果列。读取表中所有字段,请根据业务所属选择
模型ID列
模型的唯一标识字段。读取表中所有字段,请根据业务所属选择
时间戳列
读取表中字段类型是timestamp类型的字段,请根据业务所属选择
统计周期
对选定的表、按分钟、小时、天、周、月周期性质量检测。
统计时间
质量任务只针对当前周期内的数据行(即增量数据)进行计算,历史数据不会更新
间隔
统计的间隔。根据业务选择。
指标粒度
统计计算的最小维度和精细程度。每次计算指标,是针对时间戳在同一指标粒度内的全部数据行。
注:指标粒度为30分钟时,仅计算近3个月的数据。
基线数据表
选填。以某一固定时间点或标准状态为基准,用于对比分析数据变化的参照数据。用于计算漂移相关指标。若未填写,漂移指标计算结果为空
元素
说明
时间戳列
读取表中字段类型是timestamp类型的字段,请根据业务所属选择
统计周期
对选定的表、按分钟、小时、天、周、月周期性质量检测。
统计时间
质量任务只针对当前周期内的数据行(即增量数据)进行计算,历史数据不会更新
间隔
统计的间隔。根据业务选择。
基线数据表
选填。以某一固定时间点或标准状态为基准,用于对比分析数据变化的参照数据。用于计算漂移相关指标。若未填写,漂移指标计算结果为空
基线数据表
选填。以某一固定时间点或标准状态为基准,用于对比分析数据变化的参照数据。用于计算漂移相关指标。若未填写,漂移指标计算结果为空
3、点击确定,创建仪表盘。
4、查看仪表盘数据。
说明:
1、对于已有仪表盘数据的表,无权限操作的用户支持查看当前状态的图表/指标数据。 仅可查看当前状态,不可编辑,不可下拉筛选其他条件查看,不可删除。
2、显示为“-”表示该指标无数据值
不同类型表仪表盘展示的图表/指标有差异。
推理表
时序表
快照表
对于推理表,可查看字段分析数据、回归/分类指标、数据漂移指标。
字段分析
字段分析包含:字段名称、数据类型、最小值、最大值、中位数、平均值、唯一值个数、唯一值率、最小长度、最大长度、平均长度。

查看推理分析数据
当选择的是回归模型时,展示值为:均方误差、均方根误差、平均绝对误差、平均绝对百分比误差、决定系数R2分数。

可通过输入表内模型ID值重新计算指标值。
可通过选择日期查看不同时间范围内的数值。
当选择的是分类模型时,展示分类模型指标和公平性和偏差。
分类指标展示统计值和图表,统计值为:准确率、精确率、召回率、F1分数;图表为分类指标趋势图和混淆矩阵图。

公平性和偏差
需输入对比列,保护组值,正类值。

点击确定按钮,等待质量任务运行成功后,即可查看统计值和图表。
统计值为:预测奇偶性、预测平等性、机会均等性、统计奇偶性;图表为公平率趋势图
说明:
1. 任务未运行完成之前,无法看到统计结果。
2. 任务运行状态可在“配置信息”中查看。


查看数据偏移指标
说明:
1. 创建完仪表盘后,需选择特征列方可计算数据偏移指标。
2. 基线数据表和监控表的特征列必须完全对齐(字段名称、字段类型、字段含义、取值范围一致),否则两者无法进行有效对比,漂移指标会因 “无匹配维度” 返回空结果。

展示结算结果:


对于时序表,可查看字段分析数据、数据漂移指标。
字段分析数据展示字段图表。字段包含:字段名称、数据类型、最小值、最大值、中位数、平均值、唯一值个数、唯一值率、最小长度、最大长度、平均长度。

查看数据偏移指标:

数值型指标有:KS检验、瓦瑟斯坦距离、群体稳定性指数。
分类型指标有:卡方检验、L无穷距离、JS散度。
对于时序表,可查看字段分析数据、数据漂移指标。
字段分析数据展示字段图表。字段包含:字段名称、数据类型、最小值、最大值、中位数、平均值、唯一值个数、唯一值率、最小长度、最大长度、平均长度。

查看数据偏移指标:

数值型指标有:KS检验、瓦瑟斯坦距离、群体稳定性指数。
分类型指标有:卡方检验、L无穷距离、JS散度。
停用仪表盘
关闭开关表示停用仪表盘,停用后仪表盘将不再统计,历史数据不会清空。如有需要可以重新开启。

编辑仪表盘
可通过点击编辑按钮,更新仪表盘的配置。
说明:
除所属项目、分析类型、问题类型不可修改外,其他项均支持修改。

删除仪表盘
可通过点击删除按钮,删除当前仪表盘。删除后,仪表盘数据不可恢复,只能重新创建。

配置信息
通过配置信息查看仪表盘的配置参数和运行记录。

实例执行状态同数据质量任务。
访问日志
访问日志提供数据表被访问情况的统计概览,包括访问日期、访问账号、任务 ID、访问类型、执行次数等信息。

使用说明
提供可编辑的页面,便于用户填写表的使用说明等业务信息。

数据库详情

进入数据资产> 我的数据> 我管理的界面,您可以找到您管理的数据库列表数据库详情。同时,在治理中心>资产盘点 > 数据表页面,表的技术信息中将会展示此资产的数据库,单击即可查看该数据库详情。

数据库概要
数据库概要展示了该数据库下的总表数和总储存量。
基础信息
基础信息主要展示了数据源类型、关联数据源、采集任务、引擎 ID、归属项目、创建人和创建时间。单击采集任务的链接,即可跳转至对应采集任务的详情。
表列表
表列表主要展示了该数据库下所有数据表名称、负责人、重要等级、标签、资产目录、发布状态、存储量、以及其更新时间。单击表名后,将会跳转至表详情页面。
表列表同时支持资产盘点中的批量操作,例如,一键转交、批量修改资产目录、批量修改标签、批量修改重要等级、批量修改生命周期、收藏。

数据源详情

治理中心 > 资产盘点 > 表详情页面,表的技术信息中将会展示此资产的数据源以及关联的数据源,单击即可查看该数据源详情。数据源详情页面包含了数据源概要、基础信息、以及源下所有的数据库和数据表。

数据源概要
数据源概要展示了该数据源下的总库数和总表数。
基础信息
基础信息主要展示了数据源名、数据源类型、引擎ID、创建人、创建时间、归属项目、授权项目、采集任务、同源采集任务等信息。同时,单击采集任务的链接可以跳转至对应采集任务的详情。
库列表
库列表主要展示了该数据源下所有数据库名称,储存量以及其归属项目。您可以在此批量修改该数据源下数据库的归属项目。单击库名称后,将会跳转至该库的数据库详情页面。
表列表
表列表主要展示了该数据源下所有数据表名称、数据库名 .Schema、负责人、重要等级、标签、资产目录、发布状态、存储量、以及其更新时间。单击表名后,将会跳转至表详情页面。
表列表同时支持资产盘点中的批量操作,例如,一键转交、批量修改资产目录、批量修改标签、批量修改重要等级、批量修改生命周期、收藏。