批量新增规则

最近更新时间:2025-04-23 20:48:02

我的收藏
规则列表中,支持通过多表新增规则批量上传规则来在多张表下批量配置质量规则。

多表新增规则

支持针对多个表,设置监控规则。
适用场景:一次性为多个库表添加同一个监控规则。

步骤一:进入创建页面

进入数据质量 > 数据监控 > EMR 界面,单击多表新增规则,开始新增多个质量规则。
说明:
目前 WeData 支持以下数据源类型:EMR-Hive、DLC、TCHouse-P、TCHouse-D 和 Doris。


步骤二:设置监控范围

1. 单击批量新增规则,进入批量新增规则界面,您可选择监控多表监控多字段
多表:添加同一个数据源的多张表,可跨库。
多字段:添加同一个数据源的多张表,可跨库、跨表。



2. 单击添加表,添加表/字段:
手动添加:勾选即可。
批量上传:需上传 Excel,监控多表和多字段模板不同。
监控多表:Excel 中包含三列:数据源名、库名、表名。
监控多字段:Excel 中包含四列:数据源名、库名、表名、字段名。



3. 单击下一步,进入规则配置页面。

步骤三:配置监控规则

1. 选择规则模板:仅支持系统模板自定义模板。
系统模板:WeData 已经内置了56个规则模板,可免费使用。各个模板的详细介绍说明请参见 系统模板说明
自定义模板:可在规则模板菜单添加适用自己业务的规则,方便复用,详细操作指导请参见 自定义模板说明
库表参数:会根据自定义模板填写的 SQL 语句,渲染出页面并让用户选择。
table_1 表示当前选择的表;table_2...table_n 表示其他库表,需要确定的表(目前仅支持1个)。
${table_1.column_1}...${table_1.column_n} 表示表内的字段,需要选择确定的字段。
where 参数:会根据自定义模板填写的 SQL 语句,渲染出页面并让用户选择。
${param_1}...${param_n} 表示 where 条件中的参数,需要填写确定的值。
2. 选择模板:此处将根据规则类型、监控对象进行过滤。
例如,选择系统模板,监控对象选择表级,此处只可选择表行数表大小等。
3. 触发条件:比较符可选择区间值和大小值。
示例:表行数小于1,结合检测范围填写的时间变量,即表示:当昨天没有新增数据时,触发告警。
比较符:选择
比较值:填入 1。
针对不同模板触发条件不同,详细配置逻辑可参见 系统模板使用说明
说明:
此处填写的触发条件为异常值,即触发告警的条件。
4. 单击下一步,进入执行策略配置页面。




步骤四:关联监控

1. 关联监控字段,单击下拉框,选择该规则对应表下的监控任务进行关联。

2. 如果需要批量新建并关联质量监控任务,可以选择对应的规则并单击批量创建监控。

3. 创建监控后,所选规则将自动与创建好的监控进行关联。创建好的监控将在监控列表处回显。

步骤五:设置订阅

设置订阅通知,当质量检测任务的运行结果符合触发条件时(即结果非预期,检测结果为失败),以何种方式发送通知,通知给谁。
1. 进入批量设置订阅信息界面,批量设置订阅信息。
2. 在弹框订阅设置页面,勾选您需要的订阅方式,设置接收人。单击保存。


步骤六:设置检测范围

1. 单击批量设置检测范围,进入设置检测范围界面,即可批量设置检测范围。
2. 在弹框页面补充以下信息:
此处可选择条件扫描和全表。建议选择条件扫描
可填入分区 where 条件,例如:
pt_date='${yyyy-MM-dd-1d}'
说明:
此处一般填写分区字段,避免每次质量任务都进行全表扫描,对计算资源造成浪费。
SQL 中 ${yyyy-MM-dd-1d} 是日期变量,代表执行日期前一天,在质量任务执行时会被替换为具体的日期。
例如:当质量任务在2024 - 05 - 02 00:00:00执行时,${yyyy-MM-dd-1d} 会被替换为2024 - 05 - 01。
具体时间变量的替换逻辑可参考时间参数说明


步骤七:试运行

1. 选择规则,单击试运行。
2. 修改调度时间,并单击开始试运行,试运行结束后,您可单击点击查看运行结果
说明:
此处填写的调度时间,将会修改分区时间变量。
例如此处填写2024 - 05 - 02,则 ${yyyy-MM-dd} 表示2024-05-02,${yyyy-MM-dd-1d} 表示2024 - 05 - 01。


批量上传规则

通过上传 Excel 上传附件,新增质量监控规则,支持针对多个表,设置监控规则。
适用场景:一次性为多个库表添加多个的监控规则。

步骤一:进入创建页面

进入数据质量 > 数据监控 > EMR 界面,单击批量上传规则,即可新增多个质量规则。
说明:
目前 WeData 支持以下数据源类型:EMR-Hive、DLC、TCHouse-P、TCHouse-D 和 Doris。


步骤二:上传模板

1. 进入数据监控 > 批量上传规则界面,在上传模板界面,单击下载模板,本地修改后,单击点击上传,即可上传模板。
SQL 语句:此处需要填写一段 SQL 语句,要求如下:
结果必须为一行一列,即一个固定的值。
仅允许使用分区变量,例如 ${yyyy-MM-dd}。
不允许使用表名和列名变量。
触发条件:比较符与比较值,使用英文冒号分隔。
比较符:填写汉字即可。
比较值:填写数值即可。
2. 单击下一步继续配置。







步骤三:关联监控

1. 关联监控字段,单击下拉框,选择该规则对应表下的监控任务进行关联。

2. 如果需要批量新建并关联质量监控任务,可以选择对应的规则并点击批量创建监控。

3. 创建监控后,所选规则将自动与创建好的监控进行关联。创建好的监控将在监控列表处回显。

步骤四:设置订阅

设置订阅通知,当质量检测任务的运行结果符合触发条件时(即结果非预期,检测结果为失败),以何种方式发送通知,通知给谁。
1. 进入批量设置订阅信息界面,批量设置订阅信息。
2. 在弹框订阅设置页面,勾选您需要的订阅方式,设置接收人。单击保存。


步骤五:设置检测范围

1. 单击批量设置检测范围,进入设置检测范围界面,即可批量设置检测范围。
2. 在弹框页面补充以下信息:
此处可选择条件扫描和全表。建议选择条件扫描
可填入分区 where 条件,例如:
pt_date='${yyyy-MM-dd-1d}'
说明:
此处一般填写分区字段,避免每次质量任务都进行全表扫描,对计算资源造成浪费。
SQL 中 ${yyyy-MM-dd-1d} 是日期变量,代表执行日期前一天,在质量任务执行时会被替换为具体的日期。
例如:当质量任务在2024 - 05 - 02 00:00:00执行时,${yyyy-MM-dd-1d} 会被替换为2024-05-01。

具体时间变量的替换逻辑可参考时间参数说明

步骤六:试运行

1. 选择规则,单击试运行。
2. 修改调度时间,并单击开始试运行,试运行结束后,您可单击点击查看运行结果
说明:
此处填写的调度时间,将会修改分区时间变量。
例如此处填写2024-05-02,则 ${yyyy-MM-dd} 表示2024-05-02,${yyyy-MM-dd-1d} 表示2024-05-01。