2020 年是元数据管理兴起的一年。在 Datakin 你可以看到元数据管理的发展历史。在前人努力的基础上,Datakin 和其它的开源数据血缘以及架构软件,比如 Airflow,Amundsen,Datahub,dbt,Egeria,Great Expectations,Iceberg,Marquez,Pandas,Parquet,Prefect,Spark 和 Superset 宣布开放血缘(Open Lineage)倡议。
这基本上囊括了大部分的流行的开源组件,
参考链接:
LinkedIn 组织了元数据日活动。
参考链接:
元数据管理关注的不是数据本身,而是与数据有关的信息。微软的 Azure 数据科学团队讲述了从内部Azure 知识图到采用 Azure Purview 的元数据管理历程。
参考链接:
过去公司使用数据字典来做数据治理。但是这就够了吗?了解数据在哪里以及谁可以访问它是了解数据对业务影响的基础。本文是关于数据字典为什么失败以及为什么要使用数据发现服务的文章。
参考链接:
阿里搜索和推荐系统数据仓库平台写了一篇关于它的实时数据仓库体系架构的文章,这个架构支撑着多种电商业务,例如淘宝(阿里巴巴集团),淘宝特别版(淘宝C2M)和饿了么。这篇文章是有关实时基础架构的发展历程,Apache HBase的一些不足以及采用自家的 Hologres 的文章。
终于有一篇中国公司的文章了。
参考链接:
Apache Airflow 以可编程方式重新构造了数据管道建设流程。计算和存储能力的商品化使公司组织能够在根据业务的不同级别使用数据。它还给如何授权公司组织中的每个人都能创建数据管道带来了挑战。Uber写了一篇博客,讲述了该团队如何从无代码系统中获得灵感来构建uWorc,这是一个简单的拖放界面,可以管理批处理或流管道的整个生命周期,而无需编写任何代码。
可惜没开源,要不可以和Apache Dolphinscheduler比较下了。
参考链接:
Line 延续着自助服务式数据处理系统的趋势,写了一篇有关自助式批处理摄取服务 Frey 的文章。Frey与Airflow集成在一起,并为用户提供了UI界面,以减少学习成本。创建并部署用户的作业后,用户可以获取所有信息(例如执行状态和日志),并执行回填和重新运行之类的操作。
参考链接:
域事件检测是构建数据产品中最关键的部分。但常常是开发人员手工维护的,极大影响开发人员的生产效率。Slack 写了一篇很棒的博客,介绍了它如何构建客户端反应日志库并提高了开发人员的生产力。
参考链接:
大数据计算基础架构正在不断发展。从Map Reduce到Hive、Pig、Spark 和 Presto,这个行业已经走了很长一段路。这篇演进还带来了计算框架之间的互操作性问题。LinkedIn 开发了 Dali Catalog,以抽象化互操作性复杂性并提供统一的数据视图。LinkedIn 写了有关 Corel 的文章,Corel是与 Dali 集成的开源SQL翻译,分析和重写引擎,并使Dali能够跨Presto,Spark和Pig等执行引擎进行视图移植。
参考链接:
Netflix 正在以前所未有的规模开创内容创作的先河。拍摄一部电视剧或一部电影的决定是需要具有创造性决策。如何使用机器学习预测和支持创作过程?在这篇文章中,Netflix 回答了关于机器学习和统计建模是如何帮助创意决策者在全球范围内解决这些问题
参考链接:
在生产环境中运行机器学习管道并处理复杂的基础架构(如AWS)和流技术(如Kafka,Spark Streaming,Flink等)是非常困难的。机器学习的生命周期管理系统的有效抽象可以加速业务创新。Intuit 写了其机器学习平台的特征工程和特征存储部分,叙述了一些核心功能。
参考链接: