前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据部门起步阶段需要建立数仓么?

数据部门起步阶段需要建立数仓么?

作者头像
用户2936994
发布2019-03-20 09:46:40
6560
发布2019-03-20 09:46:40
举报
文章被收录于专栏:祝威廉祝威廉

之前我写了一篇关于数据中台和数仓的关系 的文章,里面理清了数仓和中台的关系。后面我了解到更通用的技术词汇去表达数据管理的两种方式: 数据联邦和数据仓储。

显然传统的数仓采用的是数据仓储的概念,而中台则更合适的是数据联邦,同时,在中台看来,实际的数据存储应该是联邦以及仓储混合的模式。

但是我发现很多公司在组建数据部门的时候,第一步都是通过hive建立数仓,但是实际情况是,数仓极其复杂,管理成本也颇高。从开始建立到真正能很好的对外输出价值会是一件非常漫长的事情,同时还有一个致命的缺陷,就是数据延迟性。通常的数仓都是T+1标准设计的。这就意味着数据是延后一天的。这个对产品和运营,还有商务而言,其实影响很大,尤其是需要快速响应的今天。

所以,在公司组建数据部门的时候,最好的方式是采用数据联邦,通过中台,先获得全局数据的访问权,同时对重要的数据建立Meta信息存储。在数据部门初期,大部分业务部门可能还没有很好的数据思维,他们初期的诉求应该是“提数”,也就是“提取数据”,做简单的分析,而这个数据往往是在自己部门内部的数据。通过中台,他们可以很好的访问自己部门内部的数据,完成数据获取,极大的满足了运营,产品对当前自己产品的数据状况。而且,因为跨部门的数据获取需求不多,数据部门去协调跨部门数据交流成本会降低,可以专心修炼内功。

但是联邦的问题其实也明显,比如我司经常遇到的问题就是业务的从库扛不住分析和查询。导致这个问题不好解决的原因有两个:

  1. 第一种是思维模式上的。运维并不认为提供的从库应该有非常高的运维优先等级。甚至资源占用量比主库高是可能比较难以让人理解。
  2. 第二种是业务技术没有跟上时代,经过这么多年,数据库依然停留在单机时代,进行传统的分库分表。当然,现在随着云以及数据库自身技术(比如分布式关系型数据库TiDB)的崛起,其实这个问题已经得到了极大的解决。但是我们无法让业务去替换采用这种技术。

所以要解决这两个问题也方法上比较简单(执行上依然存在困难),第一是让业务的新增从库采用最新的数据库技术,比如TiDB,这种数据库本身比较适合OLOAP分析,也就是能支持大数据量的存取。第二是中台采用透明的缓存技术(比如我们使用时可以按用户将数据缓存到HDFS再进行计算,或者引入类似JuiceFS这种专门解决解决数据存储和计算分离问题的存储系统),减轻业务从库的压力。

从我的思考上看,数仓和中台应该同步建设,但是在数据部门的起步阶段,为了最快的进行输出,解决业务的“提数”难题,应该优先建立中台,并且直连业务数据从库,从而实现业务自主操作。同时让分析师团队帮助业务团队进行使用,并且提供更高级的报表分析业务。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2019.03.15 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档