首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2020年那些关于元数据的文章

2020年那些关于元数据的文章

作者头像
哒呵呵
发布2020-12-29 15:31:11
1.4K0
发布2020-12-29 15:31:11
举报
文章被收录于专栏:鸿的学习笔记鸿的学习笔记
Datakin: Open Lineage 宣言

2020 年是元数据管理兴起的一年。在 Datakin 你可以看到元数据管理的发展历史。在前人努力的基础上,Datakin 和其它的开源数据血缘以及架构软件,比如 Airflow,Amundsen,Datahub,dbt,Egeria,Great Expectations,Iceberg,Marquez,Pandas,Parquet,Prefect,Spark 和 Superset 宣布开放血缘(Open Lineage)倡议。

这基本上囊括了大部分的流行的开源组件,

参考链接:

  1. https://datakin.com/2020/12/18/introducing-openlineage/
  2. https://www2.slideshare.net/julienledem/open-core-summit-observability-for-data-pipelines-with-openlineage
LinkedIn: Metadata Day 2020 - Metaspeak Meetup

LinkedIn 组织了元数据日活动。

参考链接:

  1. https://www.youtube.com/channel/UCDoVCT4j6QmKCnNmmNoWtBw
Microsoft: 元数据管理的合作伙伴

元数据管理关注的不是数据本身,而是与数据有关的信息。微软的 Azure 数据科学团队讲述了从内部Azure 知识图到采用 Azure Purview 的元数据管理历程。

参考链接:

  1. https://medium.com/data-science-at-microsoft/partnering-for-metadata-management-277733911d03
Monte Carlo: 数据字典已死,数据发现长存

过去公司使用数据字典来做数据治理。但是这就够了吗?了解数据在哪里以及谁可以访问它是了解数据对业务影响的基础。本文是关于数据字典为什么失败以及为什么要使用数据发现服务的文章。

参考链接:

  1. https://towardsdatascience.com/data-catalogs-are-dead-long-live-data-discovery-a0dc8d02bd34
Alibaba Cloud: 阿里搜索和推荐系统平台的实时数据仓库的演进

阿里搜索和推荐系统数据仓库平台写了一篇关于它的实时数据仓库体系架构的文章,这个架构支撑着多种电商业务,例如淘宝(阿里巴巴集团),淘宝特别版(淘宝C2M)和饿了么。这篇文章是有关实时基础架构的发展历程,Apache HBase的一些不足以及采用自家的 Hologres 的文章。

终于有一篇中国公司的文章了。

参考链接:

  1. https://alibaba-cloud.medium.com/evolution-of-the-real-time-data-warehouses-of-the-alibaba-search-and-recommendation-data-platform-fdb5292a01e2
  2. https://kai-zeng.github.io/papers/hologres.pdf
Uber: 可扩展的为批&流处理诞生的无代码工作流架构

Apache Airflow 以可编程方式重新构造了数据管道建设流程。计算和存储能力的商品化使公司组织能够在根据业务的不同级别使用数据。它还给如何授权公司组织中的每个人都能创建数据管道带来了挑战。Uber写了一篇博客,讲述了该团队如何从无代码系统中获得灵感来构建uWorc,这是一个简单的拖放界面,可以管理批处理或流管道的整个生命周期,而无需编写任何代码。

可惜没开源,要不可以和Apache Dolphinscheduler比较下了。

参考链接:

  1. https://eng.uber.com/no-code-workflow-orchestrator/
Line: 引入 Frey: 新的 LINE 的自助服务式的批处理系统

Line 延续着自助服务式数据处理系统的趋势,写了一篇有关自助式批处理摄取服务 Frey 的文章。Frey与Airflow集成在一起,并为用户提供了UI界面,以减少学习成本。创建并部署用户的作业后,用户可以获取所有信息(例如执行状态和日志),并执行回填和重新运行之类的操作。

参考链接:

  1. https://engineering.linecorp.com/en/blog/introducing-frey-lines-new-self-service-batch-ingestion-system/
Slack: 创建了一个响应式分析日志记录的库

域事件检测是构建数据产品中最关键的部分。但常常是开发人员手工维护的,极大影响开发人员的生产效率。Slack 写了一篇很棒的博客,介绍了它如何构建客户端反应日志库并提高了开发人员的生产力。

参考链接:

  1. https://slack.engineering/creating-a-react-analytics-logging-library-2/
LinkedIn:现代数据湖系统的 SQL 翻译、分析和重写引擎 - Coral

大数据计算基础架构正在不断发展。从Map Reduce到Hive、Pig、Spark 和 Presto,这个行业已经走了很长一段路。这篇演进还带来了计算框架之间的互操作性问题。LinkedIn 开发了 Dali Catalog,以抽象化互操作性复杂性并提供统一的数据视图。LinkedIn 写了有关 Corel 的文章,Corel是与 Dali 集成的开源SQL翻译,分析和重写引擎,并使Dali能够跨Presto,Spark和Pig等执行引擎进行视图移植。

参考链接:

  1. https://engineering.linkedin.com/blog/2020/coral
Netflix: 支持机器学习的内容决策者

Netflix 正在以前所未有的规模开创内容创作的先河。拍摄一部电视剧或一部电影的决定是需要具有创造性决策。如何使用机器学习预测和支持创作过程?在这篇文章中,Netflix 回答了关于机器学习和统计建模是如何帮助创意决策者在全球范围内解决这些问题

参考链接:

  1. https://netflixtechblog.com/supporting-content-decision-makers-with-machine-learning-995b7b76006f
Intuit: 机器学习的特征工程构建

在生产环境中运行机器学习管道并处理复杂的基础架构(如AWS)和流技术(如Kafka,Spark Streaming,Flink等)是非常困难的。机器学习的生命周期管理系统的有效抽象可以加速业务创新。Intuit 写了其机器学习平台的特征工程和特征存储部分,叙述了一些核心功能。

参考链接:

  1. https://www.linkedin.com/pulse/accelerating-ai-intuit-feature-pipelines-store-simarpal-khaira/
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-12-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 鸿的笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • Datakin: Open Lineage 宣言
  • LinkedIn: Metadata Day 2020 - Metaspeak Meetup
  • Microsoft: 元数据管理的合作伙伴
  • Monte Carlo: 数据字典已死,数据发现长存
  • Alibaba Cloud: 阿里搜索和推荐系统平台的实时数据仓库的演进
  • Uber: 可扩展的为批&流处理诞生的无代码工作流架构
  • Line: 引入 Frey: 新的 LINE 的自助服务式的批处理系统
  • Slack: 创建了一个响应式分析日志记录的库
  • LinkedIn:现代数据湖系统的 SQL 翻译、分析和重写引擎 - Coral
  • Netflix: 支持机器学习的内容决策者
  • Intuit: 机器学习的特征工程构建
相关产品与服务
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档