数据质量

最近更新时间:2026-01-09 15:23:01

我的收藏
数据质量监控节点可通过配置数据质量监控规则,监控相关数据源表的数据质量(例如,是否存在脏数据)。对数据源表的质量(如脏数据)进行监控,并支持自定义调度策略以周期性执行校验任务。本文为您介绍如何使用数据质量监控节点进行任务监控。

使用场景

数据质量功能,旨在及时感知源数据变更与ETL过程中产生的脏数据,自动拦截问题任务,阻断脏数据向下游扩散。这能有效避免因数据质量问题导致的决策偏差,同时减少因任务重跑带来的时间与资源消耗。详情请参见数据质量

使用限制

支持监控的表类型:EMR-hive/iceberg/starrocks、DLC、Doris、TCHouse-D/P/X
支持监控的表范围:
仅支持监控当前节点(即数据质量监控节点)所在工作空间绑定的数据源中的表。
每个节点仅支持监控一张表数据,但支持配置多个监控规则;说明:若您需要监控多张表,请创建多个节点使用。
仅支持在项目模式为简单模式且调度模式为任务调度的项目下使用
在数据开发(DataStudio)创建的数据质量监控规则,仅支持在数据开发运行,并执行修改、发布等管理操作。该规则也可在数据质量模块中查看,但不能触发调度运行,不允许执行相关管理操作。
若修改数据质量监控节点中配置的监控规则,且发布节点,则该节点原来生成的监控规则会被替换。

前提条件

已创建业务流程。数据开发基于工作流程执行不同开发操作,因此,创建节点前需先创建工作流,操作详情请参见周期工作流通用开发流程
已创建数据源并绑定至当前项目,且该数据源中已创建待监控表。执行数据质量监控任务前,您需先创建监控节点所要监控的数据源表。
已创建资源组。

创建步骤

步骤一:创建数据质量监控节点

1. 登录 WeData 控制台,切换至目标地域后,进入离线开发页面。单击左侧导航栏的离线开发 > 编排空间,在下拉框中选择对应项目。
2. 右键单击目标工作流,选择新建节点 > 数据质量 > 数据质量监控。

3. 在新建节点对话框输入节点名称,单击确认,节点创建完成,您可在节点中进行对应任务的开发与配置。


步骤二:配置数据质量监控规则

监控对象

进入新建监控界面,依次选择监控对象的数据源类型,数据源,数据库,监控表。


步骤三:配置执行策略


元素
说明
执行引擎
此处可选择 Hive 和 Spark,与购买的 EMR 资源有关,一般情况下 Hive 表可直接选择 Hive 引擎。
计算资源
选择 default
此处可选择 EMR 集群中的资源组,一般情况下可直接选择 default。
执行资源
此处的执行资源即项目已经绑定的调度资源组。

步骤四:配置质量监控规则

单击规则列表上的新建规则,弹出新建规则弹窗,支持选择规则进行质量校验。支持一次性新增多个规则,新增的规则将会直接关联该监控。

元素
说明
规则类型
可选择系统模板、自定义模板、自定义 SQL(如果从左侧树状图中选择规则模板,此处将默认展示所选模板参数):
系统模板:WeData 已经内置了76个规则模板,可免费使用。其中有20个模板适用于推理表。各个模板的详细介绍说明可参考系统模板说明
自定义模板:可在规则模板菜单添加适用自己业务的规则,方便复用,详细操作指导可参考自定义模板说明
自定义 SQL:可直接填写 SQL 语句作为检测规则。
监控对象
监控对象可分为:表级和字段级(如果从左侧树状图中选择规则模板,此处将默认展示所选模板参数):
表级,可对表行数,表大小(仅支持 Hive 表)进行监控。
字段级,可对字段是否为空,是否重复,平均值、最大值、最小值等进行监控。
选择模板
WeData 已经内置了76个规则模板,可免费使用。
(如果从左侧树状图中选择规则模板,此处将默认展示所选模板参数)
检测范围
可以选择全表条件扫描
全表:质量规则将对表下的全量数据进行校验
条件扫描:质量规则将只对此处填写的检测范围进行校验
例如:
pt_date='${yyyy-MM-dd-1d}'
说明:
此处一般填写分区字段,避免每次质量任务都进行全表扫描,对计算资源造成浪费。
SQL 中 ${yyyy-MM-dd-1d} 是日期变量,代表执行日期前一天,在质量任务执行时会被替换为具体的日期。
例如:当质量任务在2024 - 05 - 02 00:00:00执行时,${yyyy-MM-dd-1d} 会被替换为2024 - 05 - 01。
具体时间变量的替换逻辑可参考 时间参数说明
触发条件
比较符:选择小于。
比较值:填入1。
表行数小于1,结合检测范围填写的时间变量,即表示:当昨天没有新增数据时,触发告警。
说明:
此处填写的触发条件为异常值,即:触发告警的条件。
触发等级
选择
触发等级可分为:高、中、低。
高:当触发告警时,立即阻断下游任务执行(仅关联生产任务时有效)。
中:仅触发告警。
低:不触发告警,仅结果展示异常。

支持在规则列表单个/批量设置规则订阅信息;
支持在规则列表编辑/删除规则。

步骤五:配置任务调度

如您需要周期性执行创建的节点任务,可单击节点编辑页面右侧的调度配置,根据业务需求配置该节点任务的调度信息。配置详情请参见调度设置。


步骤六:任务保存、提交、审批、运行

您可根据需要执行如下调试操作,查看任务是否符合预期。
1. 保存并提交任务。
2. 运行任务。任务运行完成后,您可在节点编辑界面下方查看运行结果。若运行失败,可根据相应报错进行排查处理。
3. 高级运行(可选),如您希望运行时可修改调度时间,可选择高级运行。

4. 任务审批(可选)。
若您希望质量节点上线前由专人审批,可以登录 WeData 控制台,在项目管理 > 基本信息配置 > 审批配置中开启任务审批,并选择审批人。

开启后,质量节点提交前,会走审批流程,由审批人同意后方可提交上线。
说明:
开启审批后,若您是项目管理员或审批人是您自己,那么您提交任务时不会弹出审批页面。

后续步骤

任务运维:任务提交发布后,会基于节点的配置周期性运行,您可单击节点编辑界面右上角的运维,进入运维中心查看周期任务的调度运行情况(例如,节点运行状态、触发规则详情等)。详情请参见任务运维
数据质量:数据质量监控节点发布后,您也可进入数据质量模块查看该表的监控详情,但不允许执行修改、删除等管理操作。详情请参见数据质量监控列表。