前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何评价数据模型的好坏?

如何评价数据模型的好坏?

作者头像
木东居士
发布2020-08-19 20:01:25
2K0
发布2020-08-19 20:01:25
举报

数据模型如何论好坏

|0x00 数据模型的选择

最常见提到的有四种:范式、维度、DataVault、Anchor。在传统行业中,范式很流行,在互联网行业中,维度很流行,另外两种就“只闻其名,不见其人”了。

如果论这四种方法,在设计思路上的好坏,那么各有千秋。但如果问,那种模型最为成熟,那么恐怕范式和维度就胜出了,而互联网行业几乎只能选择维度建模,因为它的实践经验是最多的。

这就有点像软件或者框架的比较,Hadoop就一定好吗?Java就一定优于Python吗?并不是。但Hadoop一定最成熟,Java岗招聘人数最多。因为生态建立了起来,用的人多了,方法论就成熟了,用起来就顺手了

但是,谈数据模型前,先要看数据架构的好坏。

|0x01 数据架构的评价标准

数据架构,严格意义上,也是一个系统,只不过是“数据系统”。因此,能用在系统上的标准,如响应速度、可复用性、稳定性、健壮性等,也可以用在数据架构的评价上。但与应用类系统不同的是,数据系统面向的是决策,而不是需求,因此响应速度、可复用性就强调的更多一点。

  • 响应速度:数据架构的主要场景包括:业务开发、数据产品、运营分析三大类,不论是那种场景,数据架构均应该在尽可能短的时间内响应需求;
  • 可复用性:只有复用能力上来了,响应速度才能提上来,体现在下游依赖、调用次数、核心字段覆盖率等指标上;
  • 稳定性:除了日常任务不出问题以外,一旦发现了问题,能在多短的时间内定位和恢复问题,就非常重要;
  • 健壮性:除了电商等已经耕耘多年的领域外,绝大多数业务模型,都会快速的变化,如何适应这种变化,就非常考验架构功底。

|0x02 数据模型的评价标准

数据模型建设的怎么样,极度依赖规范,如果代码风格是“千人前面”,那么恐怕半年下来,业务系统就没法看了。没有什么比“数据系统”更看重“法制”了,规范体系不仅能保障数据建设的一致性,也能够应对业务交接的情况,更能够为自动化奠定基础。

  • 业务过程清晰:ODS就是原始信息,不修改;DWD面向基础业务过程;DIM描述维度信息;DWS针对最小场景做指标计算;ADS也要分层,面向跨域的建设,和面向应用的建设;
  • 指标可理解:按照一定业务事务过程进行业务划分,明细层粒度明确、历史数据可获取,汇总层维度和指标同名同义,能客观反映业务不同角度下的量化程度;
  • 核心模型相对稳定:如果业务过程运行的比较久,过程相对固定,就要尽快下沉到公共层,形成可复用的核心模型;
  • 高内聚低耦合:各主题内数据模型要业务高内聚,避免在一个模型耦合其他业务的指标,造成该模型主题不清晰和性价比低。

| 0xFF 持续建设的先进性

即便是维度模型,在业务高速发展的今天,也难以适应所有的引用场景。例如面向物流、面向财务、面向企业,数据解决方案的争论,一直没有停息过。维度模型虽然在过去是先进性的代表,拥有大量成熟的实践方法论和响应的工具,但是其核心思想:数据域,业务过程,粒度,维度,度量,事实等,随着业务复杂度的进一步提高,实际的模型设计过程已经在逐渐淡化这些数仓概念,大宽表、冗余所代表的的好用思想,也逐渐成为主要的设计思路。

所以不光要有方法论的支撑,由先进技术体系支撑的系统产品,也应该被逐步的建立起来,甚至是在云计算普遍成熟之后,下一代的核心产品。

这么看来,数据开发,未来也可能被自动化的工具所替代,好可怕... ...

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-08-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 木东居士 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据模型如何论好坏
    • |0x00 数据模型的选择
      • |0x01 数据架构的评价标准
        • |0x02 数据模型的评价标准
          • | 0xFF 持续建设的先进性
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档