前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >你了解你的数据吗(结丹篇):数据质量监控

你了解你的数据吗(结丹篇):数据质量监控

作者头像
木东居士
发布2018-05-25 16:25:32
9300
发布2018-05-25 16:25:32
举报

0x00 前言

结丹篇是《你了解你的数据吗》第四篇,本篇主要聊的内容主要和数据质量监控有关,之前在《数据质量监控》专门分享过相关内容,那篇文章主要从一个宏观的整体来看待质量监控,内容包括架构、设计和实现多个方面,但是对于数据质量监控本身的内容并没有一个比较体系化的梳理,本篇就来做这件事。

0x01 数据质量监控

我们将要分享的数据质量监控,不是单指数据异常,而是对数据各个角度的描述。

同比和环比

为了后面更好描述我们的想法,这里需要先引入两个概念:

  • 同比:“同比 ”是同期之比的意思,一般指本年某月的累计指标与上年相同月份的累计指标之间的对比。
  • 环比:是报告期(例如某月(年)对应上月(年),上月(年)对应前月(年)的逐期之比。以一期为一环,取环环相比的形像比喻。

在我们实际的数据质量监控中用到的同比和环比会是这样子的:

  • 同比:本月1号某业务接入的总数据量和上个月1号某业务接入总数据量的。
  • 环比:本月2号某业务数据接入量和本月1号某业务数据接入量之比。

监控内容

在数据质量监控中,我们将要监控的内容分为三个层次:

  1. 集群整体状况:这在练气篇中也有所提及,比如集群总容量、接入业务量等。
  2. 业务层面:对单个业务进行监控,具体来讲可能是对一张表来监控,比如说会监控它的数据量趋势、某日是否掉0、数据落地延迟、数据同比和环比等。
  3. 维度层面:这里想表达的内容是对核心业务的核心维度做监控,比如说用户的网页点击行为表,我们会对表中的ip字段进行监控,每天有多少为空;再或者对用户资料表进行监控,监控是否会有重复数据。

做一个大致梳理的话会是下面这张图:

0xFF 总结

数据质量监控的内容当然不会只有这么少,比如说像hdfs、es、mysql这些不同的存储引擎会有不同的特性,特定业务场景也会对数据质量有不同的要求,这些我们都不在做展开,在这里只是做一个抛砖引玉的介绍,期待大家一起来完善。

最后再聊一下为什么在《你了解你的数据吗》系列中混入了数据质量监控的内容。其实笔者理解,所谓数据质量监控,宽泛地讲应该是数据监控,数据监控的目的在于让人或者系统来更好地理解数据和管理数据,我们以这样一种体系化地方式来组织和呈现数据的内容其实是一种知识体系的汇总,其目的都是让人更好地去了解你的数据。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-01-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0x00 前言
  • 0x01 数据质量监控
    • 同比和环比
      • 监控内容
      • 0xFF 总结
      相关产品与服务
      大数据
      全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档