【视频&PPT】《数据猿巅峰思享会》之巨杉数据库CTO王涛:大数据和数据库的未来趋势

<数据猿导读>

在去年的Strata+Hadoop World大会中,巨杉数据库作为唯一的中国参展商在大会上做了展览和演讲,在本次《数据猿巅峰思享会》现场,王涛以“大数据和数据库的未来趋势”为主题再次分享了自己在大会上的所见、所闻。

数据猿分享了上一篇雅捷股份CTO谢军(Hadoop的企业应用以及GPU数据库)的精彩演说后,得到了大数据圈内朋友的广泛关注与支持,今天我们接着为大家放送《数据猿巅峰思享会》第二位(其他两位:张夏天、刘贺锋)做报告的专家SequoiaDB巨杉数据库创始人兼CTO王涛的精彩内容。

本文由“135编辑器”提供技术支持

在去年的Strata+Hadoop World大会中,巨杉数据库作为唯一的中国参展商在大会上做了展览和演讲,也接受了媒体的采访。王涛认为把自己的产品带到国外展览,对于产品的推广很有意义,至少可以引起国外主流媒体的关注。

此次思享会中,王涛分享的主题是“大数据和数据库的未来趋势”。

视频内容

(王涛42分钟完整分享视频)

获取王涛完整PPT的正确姿势:

在数据猿微信后台回复关键词“王涛”即可获取完整版PPT下载地址

◆ ◆

以下为王涛分享的内容要点

开源软件的生态模式

现在大部分基础软件都已开源,很多公司的文化也都是开源文化,从整体来说,开源的做法现在也已经不单单是为了跟大家分享,而是为一起促进行业技术的发展。2005年以后所有做开源软件的公司基本都获得了VC投资的,这是行业内一个比较明显的现象。

开源软件的发展可以分成两大类:

一是开源软件的商业化;

二是商业软件的开源化。

开源软件的商业化

开源技术一出生就在市场上站住了脚跟,但紧接着就会有一些人想要提供更好的服务,打造更牛的产品,进而成立公司深耕产品,这一类产品叫做开源软件商业化。

纯开源软件设计初衷和商业软件完全不一样,正常商业软件要的是平衡,尤其是广泛适用性、兼容性等方面。通常,一上来就开源的软件目的只是为了解决某个特定情况下的棘手问题,其设计理念是千招会不如一招灵。基于开源软件的底子打造出来的商业软件,除非能把产品理念完全改变,否则思路还是会按照以前的方向走。

比如,有些软件的做法是,在软件上封装一些功能,与社区共同成长。一方面社区可以不停的提高自己的软件,同时这些功能会随着社区版本的迭代而迭代。其特点是与主流的兼容性很强,但自身特点相对比较薄弱。比如社区有10个功能,可以直接在上面添加到11或者12个功能,不需要完全改写。

这种软件的服务模式大多是被集成商集成到解决方案里,去满足某个需求,所以对于软件自身来说,无法主导自己的发展。

另外一些软件的做法是,基于软件拉一个分支,自己独立发展。其特点是不考虑相互兼容,与主流脱节,不管以后添加什么功能,都很难集成进去。优点是自身有特点,可能会做主流无法做的事情。

这种方式发展下去,可以主导分支,未来会向真正的商业软件迈进,目标是成为真正的软件厂商。但这种方式对于做开源软件的公司来说发展会很难:

一、 想要确保对软件永久的控制会很难;

二、因为原来软件的品牌影响力很大,所以,大部分用户两年以后还是会认原本的软件,而不认可新的分支版本。

所以,拉分支单干的方式在开源软件商业化里是很难走的一条路。除非团队的服务能力特别强,能够完全掌握整个软件,比如,出现问题后可以快速修复完善。

商业软件开源化

这种软件本质还是一个传统的商业软件,只是以开源的模式去运营,来扩大自己的品牌影响力。其类型特点会保持传统企业的特点,比如:高品质、高度平衡、通用性较强,但不会聚焦于特定的某一方面。

这种开源情况,厂商会永远主导发展方向,也会提供比较优秀的售后服务,这跟开源软件商业化运营有本质区别。

从数据库领域来看,在未来一段时间,从开源、闭源角度来说两者其实是并存的,因为它带给客户的利益不一样。但是它不会一统市场,会有一些开源的玩家进入。

我们认为开源产品的社区加企业版会成为未来的趋势,纯粹做开源的模式是无法持久的,然而若想收取用户费用,只有为用户提供更多的价值才行。比如,企业版增加运维功能,社区版削减功能,以后基本会是这种运营模式去发展。

强调一下,单纯打包开源软件是无法成为一个厂商的。比如,有些人想做开源软件的项目,会先从网上下载源代码,再包一个界面,然后说这是自己做的新产品。这里面有一个误区,首先被拷出来的源代码软件除非自身是雷锋式的开源,后面没有任何厂商才可以。因为但凡有厂商,就会为了盈利而去限制别的玩家进入。

对于厂商来说,如何建设开源生态?首先,要构建社区,扩展最终用户,包括增大社区的文档、市场、驱动和解决方案。而对于产品研发方面,企业会严格把控产品的发展方向,大家不会允许其他厂商进入。厂商会使用强强联合的模式去合作,互相弥补对方的短板,而不会独自一家从头做到尾。

数据库的发展

说起大数据,很多人会把它与数据库划等号,还有一些人把Hadoop作为大数据技术的总称。从狭义来讲,Hadoop可以分为分布式的文件系统和调度系统。文件系统是HDFS,调度系统是YARN。从广义上来讲Hadoop就是大数据的代名词。

从技术层面来说,数据湖才是描述大数据更好的方式。数据湖拥有全量的用户属性,它会把所有数据存进去,然后根据这些数据进行挖掘。

数据湖分为两部分:一部分是操作域,另一部分是分析域。除了大数据分析以外,数据湖还包括海量数据的实时查询、调用、交互式检索和影像存储。

从广义的大数据生态来说,包括可视化数据,数据集成,还有传统狭义上的Hadoop生态圈,以及分布式数据库。

分布式数据库经历了几代的发展,其中最早的Share everything是主机的DB2,它上面有几个不同的数据库实例,使用同样的数据,高速网络打通,然后移植性控制,中间是用网络来完成的。而Share Nothing的架构相反,它的做法是把整个数据切成不同的小块,每个小块放在不同的节点,让每个节点拥有自己的数据。

传统数据库一定要基于外置存储,而新型的分布式数据库是基于PC服务器,再加上内置盘,不能使用高端存储。

新型分布式数据库有两大分支,一个分支是NoSQL,一个分支是NewSQL。两者的目标一致,都是为企业提供好的数据库管理软件,只是方式不一样,前者是从底向上的设计,后者是从顶向下的设计。

NoSQL会先把底层的存储、通讯都搭好,然后是计算。NewSQL的做法是基于已有的关系型数据库的框架去修改存储,然后满足分布式的需要。

去年底,美国做了一个研究,结论是未来NewSQL会与NoSQL合并,越来越多的NewSQL开始支持NoSQL, 而NoSQL也会向NewSQL靠拢。我们认为五年之内NoSQL和NewSQL可能会成为历史名词,大家会认为是新一代的分布式数据库,具体是NoSQL还是NewSQL,每个厂商可能都会有自己API特性和SQL特性。

从整个大数据基础软件的发展来看,未来会殊途同归,会从传统的关系型数据产生分支,通过操作系统方式进行。其实所谓的文件系统加分布式调度就是Hadoop,Hadoop自己不做上层建筑,核心是分布式调度和分布式操作系统,数据库在这个层面走的方向就是MPP数据库,第三个是重建分布式架构,专注于存储引擎的建议。三者目标都是为了企业做成熟的管理软件,未来都会统一,将会变成分布式数据管理系统。

很多人问,分布式数据库的未来将会是什么样的?会不会消亡?我认为十年内不会,至少与IBM的主机一样,在很多全球500强企业里还会再用,比如说DB2,现在很多银行还再用它。关系型的数据库的Oracle不会死亡,会成为存量市场,但会逐渐萎缩。

新型数据库的NoSQL和NewSQL,两者会在接下来短短几年时间内产生较大融合,SQL和Hadoop会成为另一个分支,主要是做分析为主,分布式数据库将会是更加通用化的场景,包括OLTP和一些分布式的事务、高性能的读取、高并发都是数据库支持的。SQL—on—Hadoop将会局限在低并发企业内部的分析。

分布式数据库的应用场景

我们做的历史数据查询平台产品,把企业内部的冷数据、热数据、温数据拷贝出来,放在数据库管理集群里面,这套集群并不是取代现有的任何集群,而是一个旁路系统,可以把原本离线的数据在线化,满足大家的需求。很多典型的应用场景,我们都可以满足。

比如,司法机关想在银行查询用户两年前登录网银后做了什么,这些请求如果使用传统数据库,就需要到很多不同的数据库把数据抽出来,然后进行手工关联。现在,所有的历史数据都可以在线化,相当于把新系统作为一个旁路系统,不会影响任何已有的业务系统,所有的业务系统都可以把数据移到旁路系统,在里面做业务,从安全角度考虑,这肯定是需要的。

另外就是影像平台,以前用EMC或者IBM做存储时,扩展性、成本都会有问题,现在有了大数据分布式技术,传统的做法使用Oracle加上EMC的存储,变更到分布式数据库存储里,就可以用高性价比的方案做长期保存,不用每段时间归档一次,可以做快速检索或简单分析。我们在几家银行都已经完成了这种部署。

模块架构,底层都是使用分布式数据库,上面长出很多的服务,包括版本控制、动态标签、归档、数据管理等等,这些都可以使用数据库内部的一些原数据管理,外加存储机制去满足需求。

原文发布于微信公众号 - 数据猿(datayuancn)

原文发表时间:2016-05-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏BestSDK

写出高质量代码的10个Tips

文|汤涛 很长一段时间以来,我都在关注如何提高代码质量,也为此做过一些尝试,我想这个话题可能大家会比较感兴趣,在这里分享一下我关于如何提高代码质量的一些体会。 ...

27360
来自专栏罗超频道

今天凌晨这个小动作,让微信完成复制中国互联网的最后一步

6月6日凌晨,苹果WWDC 2017年召开让许多人忽视了微信的一个重量级更新:微信公众账号图文消息正式允许插入第三方内容。微信内容运营者在编辑图文消息时,可以插...

33250
来自专栏IT大咖说

与传统相比,混合云如何实现更便利的部署

内容来源:2017 年 12 月 22 日,Infortrend 大中华区总经理杨文仁在“2017IDC产业大会”进行《混合云应用与数据中心》演讲分享。IT 大...

21540
来自专栏Linyb极客之路

如何快速成长为技术大牛?阿里资深技术专家的总结亮了!

导读:你是否有类似这样的问题——“天天写业务代码的程序员,怎么成为技术大牛,开始写技术代码?”今天,阿里资深无线开发专家李运华,系统梳理了自己的思考和理解,希望...

11430
来自专栏Debian社区

Jono Bacon: GPL 没落了吗?

不久之前我看到了 RedMonk 的 Stephen O’Grady 发了一个关于开源协议的有趣的推特,那个推特里面有这张图,

9520
来自专栏VRPinea

在VR中建造如诗如梦的“理想国”,还能邀小伙伴来尽情游玩?

AltspaceVR这一虚拟社交平台成立于2013年,可支持来自160多个国家的用户在VR中参加聚会、瑜伽课程、舞会、大型活动和观看喜剧节目等。2017年10月...

13020
来自专栏极限编程

我在ThoughtWorks中的敏捷实践

E项目是一个在线的物资跟踪监控系统。由ThoughtWorks团队为客户提供的一套完善的软件交付服务。

14430
来自专栏大数据文摘

谷歌年度狂欢2017I/O大会6大亮点曝光,机器学习将是主角

26160
来自专栏逻辑熊猫带你玩Python

“推荐给新手的几个编程酷站,最后一个最骚包!”

gitHub是一个面向开源及私有软件项目的托管平台,因为只支持git 作为唯一的版本库格式进行托管,故名gitHub。

22930
来自专栏程序员互动联盟

一名阿里测试架构师的八年从业经验分享

这两天和朋友谈到软件测试的发展,其实软件测试已经在不知不觉中发生了非常大的改变,前几年的软件测试行业还是一个风口,随着不断地转行人员以及毕业的大学生疯狂地涌入软...

31310

扫码关注云+社区

领取腾讯云代金券