数据质量

最近更新时间:2024-07-19 11:17:21

我的收藏
在此步骤中,我们将完成对数仓中的数据表进行质量监控,防止脏数据向下游传递。

质量监控任务设计

当明细表中,以下字段为空时,对汇总表将造成严重的影响:
监控表:dwd_trade_order_ordercreate_productsales。
监控字段:amount、order_date。
监控逻辑:依赖明细任务完成后,自动检测是否存在空值。

质量监控任务开发

质量任务开发主要包含以下7步:

空值检测任务

步骤1:选择监控字段

1. 单击数据质量模块,进入 数据监控 页面,再单击多表新增规则按钮。
多表新增规则:支持一次性对多表或者多个字段设置监控规则。



2. 单击监控多字段,再单击添加字段按钮,开始添加需要监控的字段。



3. 在添加字段页面中,选择添加方式为手动添加,选择数据源为 hive_emr-XXX,选择数据库为 hive 数据库 emall,选择完成后下方会刷新表与字段,选择表 dwd_trade_order_ordercreate_productsales 与对应的字段 amount、order_date,单击保存

4. 保存成功后,页面会刷新显示选择的表与字段,单击下一步按钮,开始配置监控规则操作。


步骤2:配置监控规则

1. 为之前选择的表与字段配置监控规则,选择规则模板为系统模板,选择模板为字段空值个数,填写规则名称为数值不为空,设置触发条件为大于等于1,设置触发等级为高,设置完成后,单击下一步按钮,开始配置执行策略与订阅信息。
规则模板:WeData 已经内置了50+系统模板,此处我们可以直接使用。
选择模板:右侧可以查看模板说明
触发条件:表示当空值的个数大于等于1时,立即中断下游任务,并发送告警。


步骤3:设置执行策略

1. 单击规则名称,批量选择全部规则,再单击批量设置执行策略按钮,配置执行策略。

2. 选择执行方式为关联生产调度,选择任务为插入数据到明细表,设置完成后单击保存按钮。
关联生产调度:表示将质量任务与数据开发任务关联起来,只有被关联的任务执行完成后,才会执行这个质量监控任务。由于此处我们选择插入数据到明细表,即插入数据到明细表后,会立即检测数据的完整性。
执行引擎、计算资源、执行资源均与上文中的选择一致。
选择任务:即需要关联的数据开发任务。


步骤4:设置订阅通知

1. 单击规则名称,批量选择全部规则,再单击批量设置订阅信息按钮,配置订阅信息。
设置订阅通知:设置当检测出现异常时,将使用何种方式发送消息提醒。

2. 订阅配置选择邮件短信,选择接收人为 XXX。


步骤5:设置检测范围

1. 单击规则名称,批量选择全部规则,再单击批量设置检测范围按钮,进行检测范围配置。
设置检测范围:设置检测哪些范围的数据。

2. 设置检测范围为条件扫描,填入内容:order_date = ${yyyy-MM-dd-1},单击保存按钮。
条件扫描:根据所填入的条件,只检查每天新生产的数据,而不是每天都全量检查一遍。因为监控数据量越多对资源的消耗越大。
右侧可以查看相关的参考信息。

3. 如下表示配置全部完成,单击完成按钮。


步骤6:任务试运行

1. 在页面右侧单击试运行按钮进行配置,选择调度时间为试运行时间,再单击开始试运行按钮。
执行引擎、计算资源和执行资源与上文保持一致即可,注意网络联通性
试运行:在任务发布前,可以先试运行一次,检测任务是否存在错误。
开始试运行:等待运行监测即可。
试运行时需要保证明细表内是有数据的。如果在数据集成与数据开发过程中都操作了试运行,明细表应该是有数据的。


步骤7:任务发布

1. 回到 数据监控 页面,选择按表看规则页面,单击监控状态按钮开启监控。
按表看规则:会根据数据源、数据库、数据表,筛选出规则。


质量监控任务运维

您可在运维管理中,查看质量监控任务的运行结果。