国内首家!主导Apache Hadoop新版本发布的,是腾讯云这位小哥哥

2006年Apache Hadoop发布,2008年Hadoop成为Apache顶级项目。在那时,中国移动、百度、淘宝等都已经开始使用Hadoop技术。Hadoop现在早已成为Apache软件基金会的金牌项目之一。不仅如此,它还孕育了包括HBase、Hive、ZooKeeper等一系列知名Apache顶级项目,它们一开始都是以Apache Hadoop子项目的形式在社区运作、为开发者熟知的。

这次腾讯主导发布的Apache Hadoop2.8.4版本,涉及20多个大大小小的特性和优化,清单如下:

负责这一版本整体进度的Release Manager,是来自腾讯云产品部大数据及人工智能产品中心的专家研究员堵俊平,他同时也是Apache Hadoop社区PMC的成员。

Apache软件基金会推崇PMC制度,每个开源项目都是一个PMC,即项目管理委员会,可以自行决定技术发展方向和社区运作模式,但需要公开信息,并定期向Apache的董事会汇报,以便董事会监督。

成为PMC的成员可是非常不容易的事,必须要一步步“打怪升级”。要实现从一个普通的Developer到PMC Member的跨越,除了码代码以外,开源社区的组织能力也要强,是不是帅呆了?

堵 俊 平

腾讯T4大数据技术专家,曾任EMC,VMware资深研发工程师,Hortonworks美国YARN团队负责人。深耕云计算,大数据方向10余年,在多个社区均享有极高知名度,包括Apache Hadoop社区Committer & PMC,并领导hadoop 2.6、2.8等应用非常广泛的社区release。曾领导开发多个Hadoop在云平台上优化与拓展的项目与产品。目前在腾讯致力于领导腾讯云大数据及人工智能产品研发工作。

小编采访了一下这位男神,接下来就让他给大家讲一下,这次新版本发布过程中的小细节吧。

 Q  很多人可能听说过“开源”,但了解不多,您可以简单介绍一下吗?

 A  开源可以理解为“向公众开放源代码”。近几年来热度不减的大数据,就是由开源的软件来驱动整个产业生态的。这里就不得不提到一个里程碑式的开源产品——hadoop:从谷歌的三篇论文,到雅虎的hadoop,开启了如今的大数据时代。

过去的系统软件主要是由闭源软件来驱动的。虽然像操作系统涌现出Linux这样优秀的软件,但后面的数据库和应用服务器,仍然几乎都是从闭源产品去驱动的。

hadoop诞生后的这十年来,一直都是大数据生态的核心,它改变了以往的软件形式,成为了最主流的开源项目之一。现在基本上各家数据平台团队,都是在hadoop生态系统上小修小改,去支持大数据相关的业务系统,可以认为它是开源的一个标准吧。

 Q  与传统的闭源生态相比,开源有什么好处呢?

 A 首先是避免“重复发明轮子”的问题,不同的个人和团体可以在公开的代码平台上集体创作,而不是封闭起来做重复的事情。其次是用户不必被绑架在特定的软件平台上,随时可以迁移应用和数据。最后是核心知识产权,比如以前的IOE,不只是没有“中国芯”的问题,上面的应用软件和系统软件可能随时面临被人封锁的危险,而开源就不会有这个问题,它完全公开透明。另外,开源也鼓励公司规划长线的技术投资,而不只是短线的利益操作。

 Q  腾讯这次主导阿帕奇社区hadoop新版本的发布,在国内算是首次吗?

 A 对,以前都是由微软、Hortonworks和Cloudera等国外大数据厂家轮流坐庄,而这个版本是第一次完全由国内的公司来支持的。从技术号召力或者对整个开源社区的影响力来说,可以鼓励国内的开发者和公司更积极地参与开源项目贡献,勇于承担更大的责任,更多地回馈开源社区。

 Q  给整个社会也带来了哪些积极的影响呢?

 A 首先,大数据软件属于基础技术,这次平台是由腾讯做技术主导的,在国内算是一个突破。其次,对于开发者社区来说,也是比较可靠的一个社区、最热门的项目。

最后,对于普通人来说,也是可以从中受益的。因为基础平台能力的提高,也伴随着数据处理能力的提高,可以让大家的生活更方便。大数据时代到来之前,可能没有那么多面向数据的业务,比如地图业务、O2O业务、智能推荐系统等等。包括现在极具话题性的AI人工智能,如果没有大数据平台的进步,也是发展不起来的。

 Q  之前是有技术难关的限制吗?

 A 过去十年,中国的互联网公司发展很快,大家都以追求业务为主,在技术或开源方面做得不够,这是我们相较西方的短板。国内很多公司其实也尝试过开源,但它只有开源的代码,没有开源的社区,也就是自己觉得某个产品做得不错,就把源代码开放出来而已。

源代码的开放和开源社区是两回事,区别就是你这个开源的代码,其它第三方(尤其是你的生态合作伙伴)有没有能力来参与。

现在整个大数据的热潮,其实就是被几款开源的核心软件所推动的。中国的这些大公司在具备了经济实力之后,也开始以开源为手段想要构造一个更好的生态。这可能需要一个过程,但大家已经慢慢意识到这些基础软件跟开源结合的重要性了。

原文发布于微信公众号 - 腾讯开源(tencentopen)

原文发表时间:2018-06-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

企业云计算道路隐藏着各种陷阱和困难

如今,越来越多的大企业禁不住应用软件厂商的诱惑,开始考虑将原来运行在私有数据中心的大型应用系统迁移到云端。而关于云计算的商业价值,形形色色的云计算服务商通常会告...

3105
来自专栏云计算D1net

虚拟化降低成本 要打一个问号?

随着虚拟化应用的广泛深入,很多用户试图运用虚拟化降低自身成本,但是虚拟化究竟能否降低成本,还要打一个大问号? 其实,虚拟化将减少服务器数量,但不是成本,它涉及到...

3449
来自专栏云计算D1net

IDC转型成为云服务重要参与者

“云”是生活在数据中心的,依赖于数据中心存在。在当今不断变化的环境中,更多业务和数据放在数据中心,现在数据中心几乎被用于存储所有的东西。事实上,今天几乎所有的新...

2245
来自专栏SDNLAB

聊聊SD-WAN提供商在关键功能上的技术差异

选择合适的软件定义的WAN供应商似乎是一项艰巨的任务。市场中有许多供应商可选择,但每种选择在技术,市场范围,合作伙伴关系和长期可行性方面各有千秋。

442
来自专栏云计算D1net

企业实施灾难即恢复(DRaaS)的十大要点

我们在本文中介绍了若干要点,帮助企业完成一项非常艰巨的任务:决定何时在企业实施灾难恢复即服务(DRaaS)、如何实施。 ? 一.购买,而不是聘请人员 一些企业组...

3205
来自专栏云计算D1net

混合云:架起内部部署和云计算之间的桥梁

如今,我们都听说过“公共云”、“私有云”、“托管”这些词,以及更多的涉及到云计算的术语,但目前对于组织机构最流行的术语是什么?答案是所有这些。 当企业试图摈弃自...

3256
来自专栏SDNLAB

构建SDDC为哪般?

大型机构已经感受到了必须大力推进软件定义数据中心(SDDC)的迫切需求,即便目前已有的技术尚不成熟也得如此。这一切都要归咎于公有云服务提供商。通过亚马逊云配置I...

3296
来自专栏云计算D1net

大企业云计算之路并非一帆风顺 需绕开几个坑

如今,越来越多的大企业禁不住应用软件厂商的诱惑,开始考虑将原来运行在私有数据中心的大型应用系统迁移到云端。而关于云计算的商业价值,形形色色的云计算服务商通常会告...

3225
来自专栏云计算D1net

怎样才算一个安全的物联网云平台?

物联网时代的到来让联网所带来的安全问题显得尤为突出 产品安全和嵌入式安全的理念一直都很复杂,不过我们至少对它们比较熟悉。但物联网(IoT)却对“产品”这一理念进...

2679
来自专栏腾讯数据中心

云基地,推动云计算集约化(上)

IDC(互联网数据中心),是云计算的主要载体和最主要支点,IDC布局是否合理,规模化程度大小,不仅影响云计算是否能够持续发展,也影响着使用云计算服务的用户体验,...

2495

扫码关注云+社区