谷歌宣布开源 Apache Beam,布局下一代大数据处理平台

谷歌昨日宣布,Apache Beam 在经过近一年的孵化后终于从 Apache 孵化器毕业,现在已经是一个成熟的顶级 Apache 项目。这一成就直接反应了社区为把 Beam 转变为开放、专业、社区驱动的项目所付出的努力。

11个月前,谷歌以及一些合作伙伴向 Apachee 软件基金会捐赠了大量代码,从而得以开始孵化 Beam 项目。这些代码的大部分来自谷歌的 Cloud Dataflow SDK,是开发者用来编写流处理(streaming)和批处理管道(batch pinelines)的库,可以在任何支持的执行引擎上运行。

Spark 和开发中的 Apache Flink 的支持。到今天它已经有5个官方支持的引擎,除了上述三个,还有 Beam Model 和 Apache Apex。虽然 Apache Beam 的创建背后有许多动机,但核心的动机是希望在这个数据处理的强大模型周围建立起一个开放、繁荣的社区和生态环境,毕竟这是谷歌的许多研究员花了许多年的经历不断完善的模型。但是把这样一个拥有十多年工程量的项目从一个公司内部提出来,开放给大众,这绝非易事。

下面是在成熟度模型评估中 Apache Beam 的一些统计数据:

  • 代码库的约22个大模块中,至少有10个模块是社区从零开发的,这些模块的开发很少或几乎没有得到来自谷歌的贡献。
  • 从去年9月以来,没有哪个单独的组织每月有约50%的独立贡献者。
  • 孵化期间添加的大部分新提交都来自谷歌之外。

这里引用来自 Apache 孵化器副总裁 Ted Dunning 的一段评价:

“在我的日常工作,以及作为在 Apache 的工作的一部分,我对 Google 真正理解如何利用 Apache 这样的开源社区的方式非常感佩。Apache Beam 项目就是这方面的一个很好的例子,是有关如何建立一个社区的非常好的例子。”

谷歌工程师、Apache Beam PMC Tyler Akidau 表示,谷歌一如既往地保持它对 Apache Beam 的承诺,即所有参与者(不管是否谷歌内部开发者)完成了一个非常好的开源项目,真正实现了“open”这个词的最好含义。

Akidau 在官方博文中写道,这就是开源软件令人感佩的原因:“人们聚在一起创建每个人可用的伟大、实用的系统,因为这项工作令人兴奋、有用而且与自身息息相关。这是我对创建 Apache Beam 感到非常兴奋的主要原因,是我为自己在这段旅程中做出了一些小小的贡献感到自豪的原因,以及我对社区为实现这个项目投入的所有工作感到非常感激的原因。”

Apache Beam 的毕业和开源,意味着谷歌已经准备好继续推进流处理和批处理中最先进的技术。谷歌已经准备好将可移植性带到可编程数据处理,这大部分与SQL为声明式数据分析的运作方式一致。研究人员也表示,他们还准备好恢复以前由于强制“孵化”名字对象所消耗的大量文本空间。

对谷歌的战略意义

新智元此前曾报道,Angel是腾讯大数据部门发布的第三代计算平台,使用Java和Scala语言开发,面向机器学习的高性能分布式计算框架,由腾讯与香港科技大学、北京大学联合研发。它采用参数服务器架构,解决了上一代框架的扩展性问题,支持数据并行及模型并行的计算模式,能支持十亿级别维度的模型训练。

据介绍,Angel 还采用了多种业界最新技术和腾讯自主研发技术,如SSP(Stale synchronous Parallel)、异步分布式SGD、多线程参数共享模式HogWild、网络带宽流量调度算法、计算和网络请求流水化、参数更新索引和训练数据预处理方案等。这些技术使Angel性能大幅提高,达到常见开源系统Spark的数倍到数十倍,能在千万到十亿级的特征维度条件下运行。

在系统易用性上,Angel 提供丰富的机器学习算法库及高度抽象的编程接口、数据计算和模型划分的自动方案及参数自适应配置,同时,用户能像使用MR、Spark一样在Angel上编程, 还建设了拖拽式的一体化的开发运营门户,屏蔽底层系统细节,降低用户使用门槛。另外,Angel还支持深度学习,它支持Caffe、TensorFlow和Torch等业界主流的深度学习框架,为其提供计算加速。

Google是一个企业,因此,毫不奇怪,Apache Beam 移动有一个商业动机。这种动机主要是,期望在 Cloud Dataflow上运行尽可能多的 Apache Beam 管道。打开平台有许多好处:

  • Apache Beam 支持的程序越多,作为平台就越有吸引力
  • Apache Beam的用户越多,希望在Google Cloud Platform上运行Apache Beam的用户就越多
  • 我们参与开发 Apache Beam 的人越多,我们就越能推进数据处理领域的顶尖技术

不仅谷歌从中受益 ,任何跟 Apache Beam 相关的人都能受益。如果存在用于构建数据处理流水线的便携式抽象层,则新流程现在变得更容易实现,并且在提供更好的性能,可靠性,操作管理容易性等的技术创新上具有竞争力。

换句话说,消除API锁定使得执行引擎市场更自由,引起更多的竞争,并最终行业将因此获益。

编译来源:

  1. https://opensource.googleblog.com/2017/01/apache-beam-graduates.html
  2. https://cloud.google.com/blog/big-data/2016/05/why-apache-beam-a-google-perspective

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-01-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

云计算决策指南:解析医疗的7大解决方案

为了帮助你计划,这份云计算买家指南着眼于四大IaaS供应商:亚马逊、微软、谷歌和IBM。一份来自协同作用调查组织(Synergy Research Group)...

4389
来自专栏IT大咖说

与传统相比,混合云如何实现更便利的部署

内容来源:2017 年 12 月 22 日,Infortrend 大中华区总经理杨文仁在“2017IDC产业大会”进行《混合云应用与数据中心》演讲分享。IT 大...

2014
来自专栏架构专栏

在一线城市做Java开发如何月薪达到两万,需要技术水平达到什么程度?

有人回答说这只能是大企业或者互联网企业工程师才能拿到。也许是的,小公司或者非互联网企业拿两万的不太可能是码农了,应该已经转管理。还有区域问题,这个不在我的考虑范...

2751
来自专栏互联网数据官iCDO

19个令人大开眼界的可靠消费者研究数据源

译者:董梁 本文长度为3058字,预估阅读时间5分钟。 我们今天要向大家分享19个令人大开眼界的可靠消费者研究数据源。 Kyle的注释: 数据是分享洞察、支持...

3996
来自专栏大数据文摘

GitHub迎来史上最大产品变革:发布可直接运行代码的GitHub Actions

10月16日,全球最大开发者社区GitHub Universe开发者大会在旧金山召开,会议持续两天,在刚刚顺利闭幕。本次大会主题为“认可开发者集体的成果以及增强...

1514
来自专栏喔家ArchiSelf

浅谈FPGA与音频处理器的结合

FPGA通常是面向通信行业,尽管其主要开发者仍然专注于通信应用, 但他们越来越关注存储和服务器市场。

1124
来自专栏EAWorld

DevOps 10大IT管理工具

? 写在前面(译者自序) 很久没有写博客了,几乎不知道如何开始。多年过去,已经没有转载的热情,想想该干点啥呢? 我们数字化企业云平台团队近期在研发DevO...

3373
来自专栏DevOps时代的专栏

业务安全与 DevSecOps 的最佳实践

3142
来自专栏互联网数据官iCDO

手把手教你用Excel分析网站流量(实例讲解)

前言:随着运营精细化发展,如何通过品牌沉淀的数据挖掘出更多优化可能,是每个运营、产品甚至技术的必修课。这篇文章将主要阐述我是如何通过发现问题、提出猜测、验证猜想...

43016
来自专栏Java学习网

程序员获取编程灵感的 10 种方式

有时我会陷入读着编程书但编不了程的陷阱。我不能总是找到一个可工作的有趣项目,即使我知道有大量的机会。如果你有相同的问题,这里的一些提示可能会有所帮助。 ? 1....

3425

扫码关注云+社区

领取腾讯云代金券