前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >专访宝立明:万流归一,谈Teradata的开放之路

专访宝立明:万流归一,谈Teradata的开放之路

作者头像
CSDN技术头条
发布2018-02-09 15:05:20
1.1K0
发布2018-02-09 15:05:20
举报
文章被收录于专栏:CSDN技术头条CSDN技术头条

Stephen Brobst是个不折不扣的开源拥护者,不过在他眼中,给开源贡献存在着很多的方式,就比如Teradata通过将平台开放出来,让用户可以便捷地集成自己所需的开源技术。

2014年,Apache Spark无疑是大家讨论最多的开源大数据平台,它通过集成流计算、图计算、机器学习等组件以获得更广泛的使用场景,时下已获得Cloudera、Hortonworks、Intel、Datastax、MapR、Pivotal等众多公司的支持。因此,在Spark飞速发展的当下,Teradata提出的以统一数据架构(UDA)实现对开源技术和方案的融合,这种思路到底是“现实需求中产生的开放”,还是在“重造车轮”呢?

然而,在2015 Teradata大数据峰会之行后,笔者了解到Teradata针对开源的战略,也了解到Teradata支持开源的方式——通过Teradata统一数据架构(Unified Data Architecture,UDA)打造一个开放的框架,在提供了核心的业务功能之外,让用户可以便捷地将各种开源或者商业解决方案集成到平台框架内。在对Teradata天睿公司首席技术官宝立明(Stephen Brobst)的专访中,笔者对Teradata的设计思想有了更清晰的认识。

开放,博众所长后的竞争力

在我看来,没有任何一个技术可以完美地完成所有事情,所以如果一定要什么都做的话,最终可能一无所长——宝立明。

当谈到了与其他竞争对手的对比,宝立明在专访中表示,市场上存在堆栈式和深挖核心两种策略;前者试图尝试一切,包括应用、ETI、商业智能、数据库、硬件等而后者则是深挖擅长领域,通过一个开放的途径,让更擅长其他领域的伙计们来更出色地完善你的产品,这才是真正的竞争力。

从结构化数据到非结构化数据,四海皆准的技术已不可求,大数据的分析需求促成了单一数据库到生态系统的转变,单平台多系统已势不可挡——宝立明。

需求是产业发展的核心动力,而在这个转变的过程中,宝立明先生看到一个非常好的趋势已经形成——机构开始采用开源架构。其中,Teradata率先在业界将开源Unix和Linux结构应用到数据库平台上。现在看起来可能“习以为常”,但在当时却是一个非常大胆的举动。坚持开放一直契合于Teradata的战略,通过实现互通、互操作,在深挖擅长领域的同时,通过Teradata统一数据架构更对任何第三方敞开,包括商业软件,也包括开源系统。

同时,我们还了解到,从真正已经从大数据获得洞察的机构来看,某些机构通常会拥有3个以上的系统,这些绝对不是简单的一个Hadoop能做到的。

开放,Teradata支持开源的方式

搜索一下“Stephen Brobst”,我们很简单地就发现Stephen是一个不折不扣的开源拥护者。然而令笔者费解的是,Teradata首先不是一个商业化的开源技术的公司,也并非技术社区上的最大贡献者,那Teradata对开源的支持从何而来。被问及这一点时,Stephen给出了多个令人信服的回答:

Hadoop相关。通过Teradata的专利技术QueryGrid,用户可以实现开源Hadoop系统与商业技术之间的互通性。这些商业技术既包括Teradata自己的产品,如Teradata数据仓库、Teradata Aster大数据探索平台,也包括第三方的数据库产品,如SAS以及Oracle的产品。同时,Teradata还提供了Hadoop仪表盘功能,即在Hadoop文件系统上添加一个仪表盘的能力,使得流数据能够进入到Hadoop,然后对它进行部署。此外,Teradata还收购了Loom Technology,推出了Teradata Loom技术,实现数据扰动,这也是Teradata在Hadoop文件系统之上所新部署的功能。

机器学习相关。Teradata同样打通了机器学习相关的开源技术,比如Spark MLlib和Apache Mahout,更提供了简单的R和SAS操作机器学习的可能。

流计算相关。Teradata仍然提供了商业数据库与开源技术的融合。就流处理而言,Teradata建立了一个Listener的框架,客户可以将流处理即插即入到这个框架中,可以充分利用Kafka、Spark、Apache Storm等。另外,Teradata还拥有消息排队、消息总线等功能。

当然,大数据分析中还有一个不可或缺的就是图计算,不过正如宝立明所述,这也是Teradata自己的深挖领域,暂时还没考虑到打通开源。

即便如此,我们也理解了Teradata对开源的支持方式——对比某个技术上的提升,Teradata的方式是在自己平台上提供开源技术的接口,从而加速各种技术的落地和发展,让机构利用开源起来也更加地有信心。

收购,更丰富生态系统的形成

如上所述,Teradata的观点一直是将事情交给更专业的人去做。因此,仅2014年,Teradata就收购了4家大数据公司,其中包括Revelytix、Hadapt、Think Big Analytics以及RainStor,而这一切都是为了打造一个更有竞争力的生态系统。

宝立明说:“我们所打造的生态系统称为Teradata统一数据架构,这一生态系统涉及到三种应用:第一种就是“数据湖”或者“数据水库”,主要用于捕获原始数据,包括结构性和非结构性的数据,然后再在UDA架构中进行数据资料的分析;第二种就是整合型数据仓库,这实际上也是Teradata公司的核心产品;第三种就是我们的探索发现平台,这个是Aster的主要功能。我们将SQL和非SQL集合在一起,包括图形和文本等都能在这一平台上进行分析。这三个应用就是通过QueryGrid实现互通和互操作的。”

Teradata收购Hadoop技术的主要目的是让QueryGrid更加有效,让Teradata的互通能力变得更加有效。而Loom Technology的收购主要是为了完成数据沿袭的工作。另外,收购Think Big主要为了为客户提供更优的咨询方面服务,例如就如何更好地管理Hadoop系统,提供咨询服务。而收购RainStor则是把那些大量的可伸展性的数据来进行压缩,把它进行很好的压缩之后,实现更高效率的数据存储。

综上所述,这些收购都是为了具备生态系统各种不同的能力所做的准备,并将通过QueryGrid软件实现上述所有这些功能之间的互通和互操作。

大数据,已成许多行业的生命线

风风火火数年,是炒作还是价值,大数据的讨论从未停止过。在专访中,宝立明以一个电信运营商的例子告诉我们,时下大数据已成为许多盈利的根本:

消费者对网络带宽的需求呈指数级增长,但电信运营商在这个上面的收入却只呈线性增长。大家都想要花更少的钱获得更多的东西。这对于运营商来说,自然就演变为成本和收入不平衡的关系。这也是西班牙电信、Verizon和AT&T等电信公司尽力做数据变现服务的原因,尝试弥合收支不平衡的鸿沟。

众所周知,通过售卖带宽获得的收入是有限的,因为基本上人们都是以月付订购方式进行购买。现在更多的电信运营商将重点放在增值服务上,例如电信运营商可以针对零售业来进行推荐,比如北京某一条街道的人流量最多,这里是进行广告投放或者开店的最优位置;或者说还可以再进一步提供增值服务,比如我们经常谈到的LBS基于位置的服务,其实电信运营商在这方面比其它公司更有优势。因此,通过这种数据变现的方式,可以更好地弥补网络带宽成本和收入之间的鸿沟。

通过数据变现,大数据分析能给电信运营商带来的更大的益处。因为我们需要数据分析,才能够提供精准位置的信息情报,所以现在越来越多的是一些地理空间的非常精准的数据分析,然后把这些数据分析的结果再一次打包,以B2B的商业模式提供给企业级客户,也就是将消费者的数据作为产品销售给企业客户。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-05-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CSDN技术头条 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档