你知道数据质量管理元数据有哪两个来源吗

数据质量管理元数据根据数据质量管理的要求,支撑数据质量检查的相关功能。这些元数据作为数据质量检查的方法和标准,用于监控大数据系统的数据质量和系统运行情况。

数据质量管理元数据有两个来源:一个是系统各个处理环节的技术元数据,反映的是系统技术层面的处理情况,如数据量和指标值是否合理、处理过程应该在什么周期内什么时间段内完成;另一个是业务规则和指标口径等业务元数据,通常是根据业务规则信息转化成的规则、算法和度量标准,如指标间的稽核关系。具体描述如下。

(1)规则库

规则是数据质量检查的具体标准,主要包括大数据的约束规则、合理性规则和检查规则等。规则分为三类:约束规则、计算规则和条件规则。

约束规则描述了一种必须为真或假的强制规则。这种约束可以是结构化约束,也可以是行为约束。

结构化约束:当创建术语或者改变术语之间的关系时,结构化约束能够保证术语的完整性。

行为约束:典型地被定义为“前置条件”和“后置条件”。只有在符合“前置条件”的情况下,操作才能够正确地执行;“后置条件”保证了操作结果的正确性,“后置条件”表示该行为是否满足了其预期的结果。例如,客户在开户时余额为0,在能够使用移动业务之前,必须先充值,这里的前置条件就是必须先充值,而后置条件是指所办理的业务是否成功办理。

计算规则描述了计算关系。例如,月末余额=上月末余额+本月充值金额-本月消费金额。

条件规则描述了当条件成立时,触发相关的事件或事务。例如,预付费客户的账户余额小于0,则对其实施停机操作。

(2)算法库

算法库主要是指支撑上述规则所需要的基本算法的集合,这些算法结合具体的规则由数据质量检查相关功能调用。

(3)度量信息

度量信息是数据质量检查的基本依据,它反映了数据质量的衡量标准,也是元数据管理模块技术元数据的一个重要组成部分。

度量信息是经验的积累,需要在数据质量不断建设的过程中逐步精确化。随着衡量标准的不断细化和精确,大数据系统的数据质量也会不断提高。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181228A0U3WI00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券