小B是一名数据分析师,他问小A XXX的所有指标给我一下,小A“鄙视的”给了他一个文档。
小B作为一名数据分析师,为什么自己没能去找到数据呢?
这就要说下数据仓库的元数据管理。我们都知道传统的数据库中每张表都有注释,包括表注释,字段注释,你拿到一个不熟悉的表肯定要先看注释,然后才知道每个字段的意思。就像你学习英语的时候查那本牛津字典一样,你能很快查到每个单词的意思,不就你还能看单词“猜出”一个单词的意思。同样数据仓库也有这样一套“注释”,我们称之为元数据。
数据仓库的元数据是负责记录和管理数据的含义、格式、血缘关系等。
作为数据分析师,做分析之前,你都要先知道自己需要什么数据,去哪找到这些数据。没错,就是数据仓库的元数据管理系统。所以,理解数据仓库,需要从元数据开始。
上面的元数据很大意义上是给数据分析师看的,其实还有一部分元数据是给模型开发人员看的。
模型开发人员除了做好“数据分析师眼中的”元数据,还要管理好“开发的”元数据。
元数据承担着数据治理的重任,完整的元数据管理系统是数据仓库建设成功的根基,也是数据仓库发挥作用大小的决定项之一。
最为数据分析师,使用好元数据,可以快速帮助你更快的构建特征工程。
大家的元数据建设都是怎样的,有什么困惑,可以留言分享下。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。