越来越多的注意力投射的互联网上,触角渐进的深入互联网的多层次全方位;多层次全方位的了解离不开数据。
探索初期,我们不断的抽取多层N面的数据形成了自然演化式的体系-蜘蛛网。蜘蛛网让我们快速的认识到了互联网的冰山一角。
但蜘蛛网却对进一步的数据发现带来了三座大山:数据的可信性、生产的低效率、数据难以信息化。
1,数据的可信性:每一个节点对数据的抽取无时间基准;每一个节点对数据处理的算法有差异;多层次放大差异性;外部数据的接入不统一;无公共的起始数据。可想而知:两份数据报告,有截然不同的论断,我们难分黑白,数据的可信性会遭到质疑。
2,生产的低效率:每一个节点各自为政,快速需求应急,导致很难复用的烟囱式开发。
3,数据难以信息化:蜘蛛网式的数据开发,很难积累数据及对全局数据统筹处理,也就很难将零散的数据信息化,就如盲人摸象;
蜘蛛网的矛盾演化本质是原始数据与导出数据的差异性,我们不能消除差异,但我们可以遵循差异找到高效能的数据开发方式。
以上原始数据与导出数据的差异,使数仓开始独立在业务系统之外形成数据开发域,既要来克服蜘蛛网带来的三座大山。
数仓的发展又遇到了两种分歧:多维模型的建仓方式、实体关系模型的建仓方式;我们“数据指象”公众号中写了《数据大师的纷争》简单的描述了二者的差异性及各自的价值点,感兴趣的同学可以去找来看看。