对于数据工程师而言,元数据知识可能是最需要掌握的,却常常又被忽略的一部分。毕竟在平时做需求时,大家都是用 SQL 完成任务,而和领导汇报时,又常常凸显出数据产生的效益,元数据基本上就被忽视了。如果团队里没有人想去整理元数据的话,随着公司的发展,数据源和数据量的不断增多,就会逐渐发现我怎么找不到数据了?这个数据口径到底是怎么回事,哪一个才是对的?等等问题。
网上看到关于元数据的资料少之又少,正好周末读Data Engineering Weekly时发现它整理了从 2015 年到 2020 年元数据发展的文章,基于此便有了这篇文章。文章正式开始之前,推荐一个网站:https://metadataday2020.splashthat.com/ ,这个网站是Linkedin公司整理的关于元数据知识的,感兴趣的可以上去逛逛,说不定能有不少的收获。
来自 Hortonworks 的 Apache Atlas 加入了 Apache Incubator 项目。Apache Atlas 致力于为组织提供开放的元数据管理和治理功能,帮助数据科学家、数据分析师和数据治理团队建立关于数据资产的目录(类似于数据字典啦),并对这些资产进行分类和治理。2017年6月,Apache Atlas作为顶级Apache项目毕业。IBM写了一篇关于Apache Atlas在开放生态系统中作用的文章。
相关链接:
LinkedIn 的数据团队开发了 WhereHow,WhereHow 围绕着任何一个大数据系统中最重要的组成部分数据本身构建了一整套关于数据处理流程、使用人员和相关洞见的集中式平台和相应网页。正如博客里面所提及的,WhereHow 已经拥有了 5 万个数据集、1.4万条注释、3500 万份工作流以及相关的血缘信息。
相关链接:
注释:这里的民主是指非专业的数据人员也可以使用数据。
Airbnb 开发了 DataPortal 以帮助数据民主化,并赋能 Airbnb 员工,使其可以通过 DataPortal 对数据进行探索、发现、并最后信任数据,从而让 Airbnb 员工能够了解数据。这篇文章详细介绍了这个工具是如何对分散的数据进行整合以及数据建模技术。
相关链接:
Netflix 写了一篇有 Metacat 的文章。Metacat 被设计为可以被各种计算引擎作为元数据层的服务。同时 Metacat 采用了一种有趣的架构模式,其中各个计算引擎相应的元数据存储仍然是元数据表结构的真实来源,而Metacat 并未在其存储中实现它。
相关链接:
Uber 的 Databook 的发展是从定时上传静态 HTML 网页开始,并最后发展为一个可导航的 UI,类似于百度搜索。在 Uber 的这篇博客里讲述了它们是如何抉择基于事件的元数据收集和定时元数据收集,以及如何选择数据建模策略和相应的搜索引擎。
相关链接:
Marquez 是由 WeWork 开发和发布的开源的元数据服务。Marquez 遵循集中式数据存储模型,该模型具有REST API接口(用于提取数据)和Metadata UI(用于数据集发现),可以连接多个数据集并探索其依赖关系图。
相关链接:
备注:这也是我们团队用的元数据引擎,使用体验还不错。
Lyft 开发了 Amundsen,Amundsen 是建立在元数据服务之上的数据发现系统。这篇文章讲述了在随着数据量增长而增长的复杂度,以及这种复杂度如何影响生产力和合规性。与一般博客不同,这篇文章着重于用户体验而不是技术设计。
相关链接:
Lyft 开源了 Amundsen ,并详细介绍了为数据发现引擎提供支持的架构。这篇文章比较了提取元数据的拉取模型与推送模型,以及拉取模型的好处。Amundsen 包括一个通用的数据提取框架DataBuilder,一个前端服务,一个用于处理来自前端的请求的元数据服务以及一个由ElasticSearch支持的搜索服务。
相关链接:
LinkedIn 将其元数据搜索和发现平台 DataHub 开源,并写了从 WhereHow 到 DataHub 的发展过程。这篇文章讲述了开发和开源第一个通用框架的困难以及DataHub 是如何开发的和对开源贡献的支持。
相关链接:
Spotify 写的是关于 Lexicon 的,Lexicon 是数据发现服务,旨在改善数据科学家的数据发现体验。该发现着重于个性化,例如在整个组织中找到流行的数据集,为团队找到相关的数据集,并能让每个人都意识到。
相关链接:
Marquez 加入了 LF AI 作为新的孵化项目
相关链接:
Shopify 的这篇文章是关于数据发现和数据管理工具Artifact 的文章。Artifact 提高了生产率,并提供对数据的更大可访问性并允许更高级别的数据治理。同时这篇讲述了构建数据发现服务所面临的挑战,比如获取元数据到转换、建模和应用,并使其更易于使用。
相关链接:
时隔一年后,Amundsen 加入了 LF AI 作为新的孵化项目
相关链接:
Facebook 写了有关其数据发现引擎 Nemo 的文章。Nemo 具有两个主要组件,即构建索引和提供服务,其前端构建于服务部分之上。索引又分为每天进行的批量索引和即时索引,即时索引可立即更新索引。对于服务,Nemo 对采用基于 spaCy 的 NLP 库特别感兴趣,这个库可以执行文本解析和ML方法进行后处理。
相关链接:
ber 讲述了自己在使用 Databook 并随着时间改善的经验。同时这篇文章也写了结构合理、管理良好的元数据,着重于用户体验的集中式元数据系统以及可扩展的数据模型的重要性。
相关链接:
Linkedin 写了有关 DataHub 的文章。DataHub 继承自 WhereHow 的第三代产品。这篇文章讲述了从第一代数据发现工具演进到第三代的经验教训。第三代的 DataHub 采用了面向日志的元数据收集方法和强类型的面向领域的元数据模型。DataHub的通用元数据体系结构采用 Pegasus 模式(PDL)。Uber 的 Databook 采用了Dragon,也是一种类似的数据模式建模技术。
相关链接:
Paypal 写了关于通用数据目录(UDC)是如何从2017年开始孵化的演变的文章。这篇文章讲述了 UDC 数据量的增长是如何帮助 Paypal 弃用了几个重复的基础架构,以及 Paypal 为什么采用拉取模型来获取元数据。
相关链接: