前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数仓矛盾的演进之旅

数仓矛盾的演进之旅

作者头像
herain
发布2022-04-27 19:09:38
2290
发布2022-04-27 19:09:38
举报
文章被收录于专栏:数据指象

越来越多的注意力投射的互联网上,触角渐进的深入互联网的多层次全方位;多层次全方位的了解离不开数据。

探索初期,我们不断的抽取多层N面的数据形成了自然演化式的体系-蜘蛛网。蜘蛛网让我们快速的认识到了互联网的冰山一角。

但蜘蛛网却对进一步的数据发现带来了三座大山:数据的可信性、生产的低效率、数据难以信息化。

1,数据的可信性:每一个节点对数据的抽取无时间基准;每一个节点对数据处理的算法有差异;多层次放大差异性;外部数据的接入不统一;无公共的起始数据。可想而知:两份数据报告,有截然不同的论断,我们难分黑白,数据的可信性会遭到质疑。

2,生产的低效率:每一个节点各自为政,快速需求应急,导致很难复用的烟囱式开发。

3,数据难以信息化:蜘蛛网式的数据开发,很难积累数据及对全局数据统筹处理,也就很难将零散的数据信息化,就如盲人摸象;

蜘蛛网的矛盾演化本质是原始数据与导出数据的差异性,我们不能消除差异,但我们可以遵循差异找到高效能的数据开发方式。

以上原始数据与导出数据的差异,使数仓开始独立在业务系统之外形成数据开发域,既要来克服蜘蛛网带来的三座大山。

数仓的发展又遇到了两种分歧:多维模型的建仓方式、实体关系模型的建仓方式;我们“数据指象”公众号中写了《数据大师的纷争》简单的描述了二者的差异性及各自的价值点,感兴趣的同学可以去找来看看。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据指象 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档