数据质量概述

最近更新时间:2024-05-22 10:53:02

我的收藏
数据质量是数据治理的核心环节之一,旨在帮助用户在第一时间发现在数据集成与数据开发中产生的脏数据,自动拦截异常任务,阻断脏数据向下游蔓延传递,降低用户问题处理成本和资源损耗。
适用角色:数据开发工程师、数仓库表负责人。

费用说明

数据质量任务运行将产生的费用主要有以下三部分:
1. WeData 产品功能版本费用(前提)。
2. WeData 执行资源费用:根据质量任务实例所消耗的调度资源进行按量收费。
3. 非 WeData 直接费用:质量任务校验需要引擎、数据源服务配合执行(例如 EMR、DLC、云数据仓库、云数据库 MySQL、COS 等),将产生引擎费用,此费用由引擎侧收取,不包含在 WeData 账单计费项中。各引擎具体收费标准请至腾讯云官网参考各引擎产品文档中的计费说明。
详情请参考 购买指南

核心能力

质量模块主要包含以下核心功能:
1. 支持多种腾讯云大数据存储引擎(EMR、DLC);
2. 可按照表级、字段级配置数据质量检测规则;
3. 基于实际业务场景配置执行策略;
4. 设置规则强弱决定是否阻塞下游任务;
5. 支持多种触达用户方式(企微、微信、电话、短信、邮件、飞书);
6. 可从六个维度(准确性、及时性、完整性、唯一性、一致性和有效性)统计质量评分,并形成库表维度的质量报告。

模块功能

数据质量各模块功能介绍如下:
功能
简述
质量概览
质量结果概览:
查看检测情况、规则运行情况;
查看告警情况、表告警排行。
规则模板
统一管理规则模板,便于统一复用:
56+系统内置模板:仅支持查看;
自定义规则模版:支持增删改查操作。
数据监控
创建检测规则:
支持多种腾讯云大数据引擎:EMR、DLC、TCHouse(即将发布);
支持多种新建方式:单表新增、多表新增、批量上传。
查看检测规则:
支持多种查看方式:查看全部、表维度、规则维度;
支持查看某张表的规则列表,并进行规则管理。
运维管理
执行实例与结果:
支持查看质量任务的运行结果,并可查看每条规则历史运行情况;
支持导出执行结果,并查看历史导出日志。
质量任务:
支持查看已经生成的质量检测任务;
支持为质量任务配置告警信息。
告警信息:
支持查看历史告警情况。
质量报告
质量报告:
支持将历史运行结果以多个维度统计为质量分:库表、规则维度;
支持多个维度查看质量分:综合质量度、维度质量分、质量分明细。

核心流程




关键名词解释:
名词
解释说明
独立周期
对选定的数据库表、核心业务字段按天、按小时、按分钟等自定义频率设置周期性质量检测。质量任务会按设定的周期定时执行,如发现异常,会第一时间通知订阅人。
关联调度
将质量任务与生产任务(数据同步任务或者数据开发任务)进行关联,当生产任务运行结束后,插入运行质量规则任务。如发现异常,会第一时间通知处理人进行处理,并根据任务级别阻塞下游任务执行避免问题数据扩展。

注意事项

EMR 、DLC 等在配置数据质量规则前,需先进行元数据采集,详情请参见 采集管理
EMR、DLC 配置表、字段数据质量规则后,产出数据的调度节点需要使用网络已经连通的调度资源组执行,并保障执行机稳定且版本已更新至新版本,才可以正常触发数据质量规则校验。
每个表均可配置多个表级、字段级数据质量规则,同时执行校验。