首页
学习
活动
专区
工具
TVP
发布

解字“元数据”之一:发现问题

#本次讨论仅针对数据仓库/大数据领域,不保证适用于其他领域

在数据仓库/大数据领域摸爬滚打的弟兄们或多或少都要和“元数据”这个词打交道,被这个词整蒙圈的也一定不是少数。百度百科里的元数据定义相对比较到位且通俗易懂:

元数据(Metadata),又称中介数据中继数据,为描述数据的数据(data about data),主要是描述数据属性(property)的信息。元数据是关于数据的组织、数据域及其关系的信息,简言之,元数据就是关于数据的数据。

可以看出,元数据无非就是描述数据属性的信息,但是,数据的属性那么多,哪些该是元数据,哪些又不该是元数据呢?这就需再看进去“元”也就是“Meta”是什么。在维基百科里,Meta的定义如下:

Meta (from theGreekpreposition and prefix meta- (μετά-) meaning "after", or "beyond") is a prefix used in English to indicate a concept which is an abstraction behind another concept, used to complete or add to the latter.

不难看出,Meta也是一个概念,是另一个概念的抽象,那么,“抽象”又是什么呢?求助维基百科吧:

Abstraction in its main sense is a conceptual process where general rules and concepts are derived from the usage and classification of specific examples, literal ("real" or "concrete") signifiers, first principles, or other methods.

"An abstraction" is the outcome of this process—a concept that acts as a super-categorical noun for all subordinate concepts, and connects any related concepts as a group, field, or category.

Conceptual abstractions may be formed by filtering the information content of a concept or an observable phenomenon, selecting only the aspects which are relevant for a particular subjectively valued purpose.

呃,英文看起来太累,还是看中文吧:

从具体事物抽出、概括出它们共同的方面、本质属性与关系等,而将个别的、非本质的方面、属性与关系舍弃,这种思维过程,称为抽象。

不难看出,中文版本比英文版本更简洁,但是少了些很重要的内容:

observable phenomenon

for a particular subjectively valued purpose

connects any related concepts as a group, field, or category

为特定的主观价值目标服务,这是点睛之句,元数据在数据仓库时代的全面折戟就是因为忘了这句话,当然这是后话,迟些再展开。

我们把话题拉回数据仓库领域,在这里,元数据的定义就是描述数据的数据(Data about data),分为技术元数据、业务元数据等,元数据的元数据也是元数据,按照经典的数据仓库建设套路,需要一个贯穿全程的元数据管理工具或者元数据管理平台。

我们基于“for a particular subjectively valued purpose”这个原则,重新审视各环节对技术的要求。

业务元数据:

望文生义,为业务目标服务的元数据,或者描述数据的业务特性

承载各层级业务人员对数据的理解,理解又可细分为以下维度:

各级业务人员对数据的统一理解

各级业务人员对数据的个性化理解

各级业务人员对数据的个性化理解的合作与分享

技术元数据

望文生义,为技术目标服务的元数据,或者描述数据的技术特性

不需要看进技术实现细节就可以精确了解数据的技术特性

必须做到技术元数据和技术实现之间100%的一致性

为同一目标服务的不同技术工具之间可以无损的进行技术元数据的协同

还有一个麻烦,既然元数据的元数据也是元数据,万一不好彩,存在多层级的元数据,元数据工具应该是区别对待?还是统一无差别对待?

如果以上技术要求合理且为真,不难发现,目前市面上所有的元数据工具都是不能满足要求的辣鸡。所以,几乎所有已经上了元数据系统/元数据工具的客户,都未能实现立项的目标也就是可以理解的,因为这些工具的技术特性和支撑这些工具背后的方法论,就已经注定了无法兑现它们曾经吹过的牛逼。

呃,先到这,天气暖和些再写《解字“元数据”之二:分析问题》

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180203G0CLL200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券