本文编译自:https://jameskle.com/writes/open-source-data-stack-2021
2021 年一个有趣的新变化就是:Building the modern stack with open-source data solutions
,换成比较容易理解的话,就是基于开源软件构建自己的数据处理流程。如果是在国内玩大数据的人,可能对此还有些不太理解(比如我),现在各家互联网公司基于 Hadoop 生态圈等一系列开源组件构建的大数据平台解决方案早就已经成熟,那modern data stack
价值在哪呢?通过对What I Learned From The Open Source Data Stack Conference 2021的阅读,我发现这是为了解决传统企业的数字化转型问题的,让这些企业也能使用上方便高效的处理工具洞察数据,而不用局限于某一家提供闭源的商业解决方案的公司。用文中的话来说,就是通过开源软件,企业可以自己掌控数据,保证用户数据隐私安全,而不用担心数据被第三方公司利用。
Open-source software helps you control the end-to-end flow of customer data throughout your organization to guarantee data auditability, allow data governance, support consumer data privacy, and enable productive engineer workflows.
首先是modern data stack
导致的一些变化:
开源项目是如何完成这个变化的呢?
对于未来,
Conclusively, open-source will continue to drive innovation on the modern data stack.
数据团队的目的是帮助组织做出更好的决策。那么数据团队应该如何运作呢?数据团队构建数据产品并向数据栈添加工具。
数据产品也应该按照产品的定义去管理和构建:
本文的其余部分主要是在介绍现在数据栈里的工具了,比如有 Superset、dbt、Snowplow等等,感兴趣的读者可以继续读读。