专栏首页java一日一条记一次架构设计的经验--数据质量监控

记一次架构设计的经验--数据质量监控

在工作中跟同事沟通很重要,有多重要呢,一个月前,领导给分派了一个工作:要做一套针对线上实时数据的质量监控。监控这种工作首先第一点也是最重要的一点要跟生产流程解耦,这个性质也间接的导致了这份工作优先级别无限下降,最后只有我一个人搞这个项目。

不知道有多少人有过一个人开发整个项目的过程,从零到一,从无到有,时间比较急,来不及用一些比较成熟但是复杂的开源框架,这种情况下只能针对需求敲代码开发。之前没有搞过监控类的项目,只能从网上找案例,找相关的文章,看看前辈们是怎么思考的怎么开发的。

当时浏览了一整个晚上网站,总结出要实现这个功能至少需要三步:1.数据收集;2.规则引擎;3.数据展示及报警

从功能上讲整个系统分为三类之后,就要开始设计你的表结构和文档了,这个过程就是我之前写的一篇架构那些事中的抽象过程了。抽象这个事情很有意思,我们不妨先一步一步把各方以及需求都写到一张纸上,发现他们的相同点与不同点。

图1 数据的具体层级

上图是我根据数据性质以及业务方需求把每一个变量作为一个单元,由数据来源将每一个变量级的数据传过来,然后由我方存储。所以三张表油然而出,数据来源表,数据集表,变量表,具体每一个变量是我们应该对监控的对象,所以接下来的规则引擎类的表就要针对每一个变量做文章了。

常见的数据质量规则是数据偏移,数据偏移就是我们常见的psi公式了,将一个变量分多份,当然分的种类也不同,一般常见的有等宽和等频。然后根据公式:

psi = sum((实际占比-预期占比)* ln(实际占比/预期占比))开始计算psi值。计算psi值一般小于0.1属于非常稳定,在0.1与0.25之间属于正常,再大了就需要报警了,同时也可以把每一个分区的预期比例和当前占比做一个比较,可以很好的显示出数据偏移方向,针对情况可以做出针对性的策略,举个简单的现实中的例子:如果一些注册用户的性别年龄区间相较于预期的比较大,这种情况下必须赶紧分析一下当前的推广活动啊等等的。

到现在为止设计工作数据收集模块和规则引擎模块已经有一个大体的印象了。提前剧透我们的数据量非常大,一天的数据有接近一个T的大小,后期我会接着写第二篇,讲一下具体用到的技术框架和数据展示报警模块以及数据存储的设计。

趁着晚上下班的时间,写的这篇文章,如果还算可以记的点个赞哦

本文分享自微信公众号 - java一日一条(mjx_java)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 平均年薪35W,2018年大数据AI发展趋势分析

    近几年,大数据不可谓不火,尤其是2017年,发展大数据产业被写入政府工作报告中,大数据开始不只是出现在企业的战略中,也开始出现在政府的规划之内,可以说是互联网世...

    哲洛不闹
  • 一个 2 年 Android 开发者的 18 条忠告

    我仍记得2014年我决定做安卓开发的那天,这是我一生中做出的最好决定之一。到现在已经有2年半了。

    哲洛不闹
  • JAVA&大数据架构方向 同与异?

    架构不是一个职业而是一种能力,每一种架构师只不过是在不同的领域里面使用不同的技术,没有什么可对比,就好比如你问一个篮球明星和一个足球明星有什么区别一样!

    哲洛不闹
  • 大数据的威力,它可能知道你何时在啪啪啪。

    海量数据的威力 人们在形容一个事物非常大或者非常多的时候,往往喜欢用“海量”这个词,比如说某某某的酒量很大就称其为海量,所以在形容数据量非常大的时候,就有了“海...

    用户1310347
  • 【思想】大数据的管理喻意

    大数据文摘
  • 玩转大数据,你需要了解这8种项目类型!

    在过去的 12 个月里,笔者一直在大数据的战壕里挖掘。好吧,其实大部分时间我只是坐在比我更聪明的人旁边,看他们怎么在战壕里挖掘数据,再把所做的事情进行简化以上报...

    灯塔大数据
  • 【热点】宜信大数据负责人Joyce:当金融遇上大数据

    摘自:36氪(ID: wow36kr) 这两年,互联网金融的成长速度让一些不可一世的传统金融巨人也不禁打了个冷战。倒不是因为互联网金融业务的规模真的威胁到了传统...

    小莹莹
  • 数据猿对话 | GE通用电气秦川:能源大数据关乎国计民生,创新尝试一定要慎重

    <数据猿导读> 不久前闭幕的G20杭州峰会核准了《G20能效引领计划》,并就G20能效的实现目标、合作原则、合作领域及实施机制作出了部署。作为《G20能效引领计...

    数据猿
  • 宜信大数据负责人Joyce:当金融遇上大数据

    大数据文摘
  • 【数据科学】成为一个数据科学家的九个步骤

    数据科学和数据分析发展迅速,给该领域带来了众多工作机,但是可用人才匮乏。这给那些想找新工作的人提供了希望。 ? 但是如何才能成为一个数据科学家呢? 首先,每个...

    陆勤_数据人网

扫码关注云+社区

领取腾讯云代金券