00:27
所以大概是9798年的时候,全世界就笼罩在这个y two k这个阴影里边,2000年特火的一个词儿是CRM,全民在做CM啊,我们看确实是有很多这种op的数据库,在这个阶段就发展了起来,那个睡觉的狮子单别同行他啊同行,那以后要要吃苦头的no SEO出来之后,当时不是还说嘛,No是什么意思,不管哪一轮的it的风潮的波动,貌似都要把数据库取代掉,但是实际上都没有取代掉,包括00年初这一波,大家好,欢迎大家收看腾讯云TP技术指针和明说三人行联合策划的中国数据库的前世今生的第三期,之前我们讲到了中国在90年代的时候的数据库的发展,那我们也谈到了很多外商的公司进入到中国,给我们的信息化带来了新的活力,帮我们的信息化做了很重要的。
01:28
一个起步的动作,我们今天特别邀请到了腾讯云TDC口的产品负责人陈卓,呃陈卓给大家做个自我介绍啊,谢谢明叔,各位观众朋友们大家好,然后各位腾讯云的开发者大家好啊,我是陈卓,然后呢现在是在腾讯负责啊T1CIRCLEQ这款产品,然后我本人呢,11年毕业之后啊后是在人大金仓,然后呢工作了大概到17年,然后在这个过程当中的时候,是参与了就是国产数据库的一个发展,然后呢19年来到了腾讯,然后呢现在也在负责T1CIRCLE这么一款腾讯的自研的一款数据库产品,今天也很荣幸有这么一个机会,然后呢来向明叔和呃小军老师来请教一下啊,也看一看,就是之前国外的这些的商业化的产品,在国内的it迭代的过程当中的时候,我经历过的一些事情,也更方便,也更好的为我们这些现在还在做,就是国产数据库的这些同学吧,然后呢,我们也来看一看有哪些事情是可以我们吸取的一些经验,我我觉得我觉得陈卓你太谦虚了啊,你看我们这个栏目。
02:28
我越往后走啊,这个嘉宾会越来越年轻,然后呢,你就带入了一股这个年轻的力量,是不是,我就我就想问问200年的时候你在哪儿,200年的时候我应该还在上中学,上中学是吧,你看时代感立刻就出来了是吧,小军,200年的时候你在哪儿了?我200年的时候在那时候在第几年了?呃,1996年却已经第4年了,其实快被收购了是吧,2001年就被收购了的最后一年,所以这个时代感就是我200年的时候,这个还在美国呢,在在硅谷。
03:05
200年那个时间点有一个重要的事件叫y two k y two k是是是啥?Y two k呢?应该是计算机界在一九九几年的时候,大概969798那个时候意识到了一个很大的问题,是什么呢?那时候存储太多贵了,对那字的字节能少一个就少个俩,在所有的程序里边都有一个缺省,就是我写75的时候是1975对吧,所以我就不写一九这俩字儿,我就写75对吧,然后我算83-75是8年,然后99减减75是24年等等等等,但是没想到到了九几年的时候,突然发现说,诶,还有一个2000年这个事情,一过了2000年以后,所有的年份都变成0000-75,这事儿要出乱子,变成负的了,所以大概是9798年的时候,全世界就笼罩在这个y two k这个阴影里边,所以我99年在美国,在一家。
04:05
我公司就在帮他们做这个y two k的项目,就是把所有的写过的程序CQL东西都拿来review,都看里边有没有缺省值,是没有写全是1975或者1983的大很想也挺可怕,这个如果是有有这种错误的话,那比如说算利息是吧,这种的可能算成负的了,那这个可能是跟钱息息相关的这种事儿,你们有听说这个00年真的发生了以后,那一瞬间切过去有谁出事儿了,有企业出事了吗?嗯,在国内在是管的这块儿里头没出事儿,对呀,啊,大家严阵以待干了好些测试啊,最后没出事儿,当时也有一股这个说法,就是说这个y two k这个千年虫,这个是一个套子是吧,大家大家这题的命题对,但是不管怎么说吧,那一段时间其实计算机的发展是有点停滞了一小片,但是呢,对数据库的影响有什么,这种的情况下的话,那可能就是不是也得有一些应用上面的一些容错来还去考虑吧,没想到那么多才做。
05:05
不是说嘛,这个大家在80年代搞这个电脑,搞PC的时候,就没有想到这个玩具还会有30多年的寿命,那这么一看,其实这也是一个契机吧,就是可能是这个越把生产系统当做实际的业务在跑的,这些企业的话,可能就投入或者是要做这个事情的,提前的准备的事情就要做,做很多,很把这个事情想的很充分,其实也是基于就是这次的一个问题,然后倒逼了整个it系统的一个感知的,好在就是下一次出现类似的问题,那就是9000年以后,就这差不多七八千年以后,七八千年以后,所以大伙儿现在真的可以好好睡睡觉,不管那些事了,这个就是反正是当时的一个小故事哈,从数据库的发展格局上来看,我们上次结尾结到,虽然说大家都在竞争,但是似乎这个格局互相没有发生踩踏。Oracle是一个关系型数据库的一个大的市场份额的占有者,塞贝斯挑战了Oracle,没有成功。
06:05
往下走,Informx有自己的一个独特定位,IBM着大机抱着自己的这个硬件来一起卖,对吧,Taor也是守它的数仓,T他的南,To守他的容错,就到了99年2000年的时候呢,S维斯不像以前那么火了,他是在往下走的,但是inform在北美其实他也颓势了,但是在国内呢,他那时候呢,反而还有点什么同志中心,哈哈哈哈哈哈哈,还在支撑,它是借助于这个数据仓库,而且呢,就99年那阵子呢,到2000年,对,尤其是2000年特火的一个词儿是啥?CRM全民在做CM,你到银行他谈CM,到那个就是电信谈CRM啊,CRM有个特点,他跟客户的这个交互呢,内部后台实际上是有对市场客户画像有分析的,所以它可以把它看成是数据仓。
07:05
库加上BI在落地的一种延伸,所以呢就是以数据仓库为底,然后催都得催BI,最早咱们做数据库的人,咱都说做数据仓库,但是为啥会蹦出BI提的对,但是呢,谁跟的比较紧,我觉得是IBM跟的比较紧,因为它有global service对吧,经常以这个,呃,以这个咨询顾问这种角色出现,所以他要引新概念的,我就发现那个IBM呢,诶不怎么提数据仓库上来就是第二,所以导致我的influence立刻把PPT全程替换,把我的datata house的那个出现地方全都替成啊要要要要不然我我我不能对标啊,啊DB two它起来其实是比较悄悄的,你要是在Oracle或者in information公司的话,你一开始不认为DB two是你的竞争对手,因为他是在主机上大机上的,因为你的客户不用大机啊,然后呢,我一见客户我说哎呀DB two不行,他只能赚。
08:05
那在IBM机器上这句话呢,其实是错的,他其实是多平台的,是你作为售前这么讲的客户还信,但是到了1999年,我翻了一下这个迪迷图的资料,发现他其实画的很好啊,各种玩意儿都有,所以当时呢,我又回到前面去,那个睡觉的狮子,咱别捅醒他啊,捅醒他了以后要要吃苦头的啊,所以呢,他呢,这已经悄悄上来了,呃,但是呢,稍微往前跳一年,就是information被IBM收购以后呢,这时候我发现他是个啥情况呢?BB two的客户并不算少,但是他很分散,他缺少很典型的很拳头性的客户,但是我猜这个东西很可能是就对IBM来说,这个单子它不是一个d b two的单子,它是一个整体的,一个对吧,硬件加软件加服务的整体一个单子,从他的数据库部门来说,他可能认为说这是我的最重要的一个一个胜利单子,或者是最重要客户。
09:05
但是从IBM角度,或者从市场的生意来说,他并不这么去宣传,因为他面对客户跟他的他的客户经理面对客户啊,这个档次是不一样的,所以他是造成了他这种状态,这就是DB two的情况,Oracle他其实日志是好过的,他首先他遇到的竞争对手手的压力比以前弱了,第二点他自己假设说当时Oracle什么地方还稍微有一点点弱,我觉得两个,一个是金融领域,因为有IBM的那个债,第二个呢,就是它的数据仓库领域,它以前重视度不够,然后有一家公司,咱说泰尔雷塔,他兴起了几个大的银行的数据仓库,即便没拿下单子,都已经谈的七七八八了,在这个里头呢,虽然微软不温不瘟不火,但是他已经把Windows平台的数据库用ckq server基本吃了,你拿你拿别的平台在这上,你的性价比各方面。
10:06
跟都没戏,那个时代的数据库竞争呢,变得比较温和了,嗯,因为因为它是三个大阵营,IBM是自己的这个系统,虽然它有它的aix,但是总的来说它是跟硬件绑绑着卖的,对吧,所以它并不是专门卖一个开放的数据库,微软呢,那个时候恰恰是Windows两零千,NT那时候版本也是叫NT两零零,然后CQ server也是c server2000,所以这个时代。微软的自己的企业级的这个架构已经相对来说清晰了,他也不跟你玩儿,它没有unix版本对吧,所以就变成各自玩各自的开放系统里边儿虽然有竞争,但是相对来说比较温和,都是那个比较一些专的客户,比如说我特别要那个高可用,我上了一个nonstop cle, 还有一个背景版是什么呢?背景版是90年代中期和后期的这个互联网的这个势头太强了,嗯,所以大家那时候都在拼,包括微软也是在想怎么去跟那个ne斯CA打那个browseer之战啊,对吧,这个IBM觉得自己落后了呀,塞贝斯之所以后来有点有点下滑的比较快是什么?就是已经打不赢数据库的战争,以后又又牵扯了好多精力去做互联网的这一套东西,花了好多钱,我觉得90年代末和两零零年初的时候,数据库相对沉寂,就是现在大家可能更多的谈说,诶有了AI以后,可能我不需要数据库了,不管哪一轮。
11:33
的it的风潮的波动,貌似都要把数据库取代掉,但是实际上都没有取代掉,包括00年初这个这一波对吧,看似沉寂了很久,但是实际上他。水下在酝酿什么东西呢?我觉得其实酝酿了一些新的技术出来,所以我觉得00年初劣势数据库的发展是一个挺标志性的一个动作,数据仓库里面仓库orp。
12:02
我是99年在金融公司做这个y two k01年我就加入了美国最大的资产管理公司叫b gii, 这公司后来被这个black rock被费莱德给收购了,在里面开始做塞贝数据库的支持,然后我就在一些展会上看到了CSIQ这一款劣势数据库的产品,技术人员们拿来玩儿嘛,拿回我们公司来开始做测试,就发现这帮人跟我吹牛,说你任何一个查询到我这儿1000倍,给你提高1000倍,我说我见过吹牛的,也没见过这么吹牛的是吧,但是拿回来一算,确实很快,说一些去话就是这个也是奠定了我后来06年从美国回回到塞贝S中国的一个契机,我在BGI用了整整四年多的这个IQ,把这个金融工程的这些数据,每天的算法。
13:02
和他的报表体系,这些分析型的这些应用,每天晚上要算八九个小时的这个作业,从晚上收收盘了以后就开始,哇,就开始在数据库里边算,满打满算,开盘之前还剩半个小时,一个小时非常紧张,你知道吗?出一点儿事儿,你就你就出问题,哎,我们把这个过程乘10倍的提升,就等于说把这一个一个晚上八小时的作业变成了一个来小时,迅速就做完了,这个带住了生产力的提高嘛,然后我是通过这个机会,呃,国内的塞贝这个原来一些老朋友又看到我了,我们正缺这个塞贝赛Q的这些专家,而且是金融客户,真正的客户的这个层面用这个东西就这么回到国内,所以IQ代表了中国的一个劣势,数据库的一个介入,嗯,没错,其实也能看到,就是随着就是这个it系统的那个演进的发展,随着你的这个数据越来越多,你的存储越来越廉价,然后呢。
14:02
那业务上就是或者是这些企业的老板呢,可能也会想着是说,诶,那我占有了这么多数据之后,我能不能反向去优化一下我的原有的生产流程,可能是因为这些老板需求吧,我们看呃,确实是有很多这种的,那个ORP的数据库在这个阶段就发展了起来,对,其实这个时间点也是就是o oapp从o op里边分出来的一个一个阶段变成了一个,变成了一个细分,细分点比比较重要的一个分支,没错,所以这劣势数据库和OOAP的分支出现是相辅相成的,它就专门针对这一类应用去做优化,它不仅不能优化OOTP,甚至它是一个非常不合适的OTP数据库,还真是,就是这个阶段有ss IQ ver尔迪卡吧,啊会,会否错过了VO卡,所以他在那个时候还有一些什么专利的这个互相的指指控啊什么之类的东西,但但是不管怎么说,在那个时候其实把烈士数据库的这个声音给唱响了,我印象当中就是我从我开始工作之。
15:02
就老有人说说是这个BI是一个很的一个事情啊,然后那个能去反向去决策,就是或者是去影响实际的生产端的效率,也想向那个小军老师还有明叔来请教一下,就是在这个过程当中的时候,就是你们怎么看,就是类似于像BI这种自顶向下的这种的推的更合适呢?还是业务数据量越来越大,然后自下而上的这种的衍生出来的数据处理需求是这样啊,我自己觉得厂商主导的百分比更大一些,以IBM为例,他在推这个BI的时候,他主要去动用global service团队的这个力量,跟客户谈的是业务,业务,业务需要去知道你的市场在哪里,比如说用户的细分,行业的发展,那么这些东西谈到了数据的这个分析,不一定数据量很大,但是这件事儿是你以前没听说过,或者你以前。
16:02
知道,但是没有系统化,理论化,那么你从IBM那儿得到了新知识啊,花钱买套系统搞一个东西吗?看看那个就是绩效啊,那你说真的有没有用呢?我觉得有用,举个例子,2000年前后以前中国移动有个叫动感地带这样的一个东西,那么这个品牌实际上是在广东移动他分析了一两年这个用用户数据的基础上觉得,诶,我推的一一个组合的这个套餐啊,加上一个啥啥啥东西,诶我去吸引了年轻人,鼓励他们多打了电话,鼓励他们的对我的使用,是我觉得那个年代,呃,外企呢,就是不仅仅是给国内的企业带来数据库产品,实际上在这个管理,市场、行业的分析,各个方面的方法论这些上面其实也得到了很多东西吧,即使在OAP这个词出现之前,大家对数据。
17:02
的使用和消费,也存在分析的属性,每年打报表啊,或者是每季度打报表啊,或者是从里边去做一些局部的分析啊,这些动作其实在做,但是呢,在90年代末期,或者在00年之前,没有被戛纳尔这样的这个咨询公司把它提升到理论,提升到一个层面之前,它是从属于业务的,对,就是业务的一部分,对吧,从来没有在部门上或者组织关系上,或者是系统上进行分割,但是呢。这些东西越来越变,数据量也越来越大,挑战也越来越大的时候,慢慢慢就会出现说,哦,既然OAAP或者是分析这些东西是一个企业离不开的业务的一部分的话,那为什么我不单位这一类业务去做一个专门的超级快的一个匕首呢?还加上理论上的突破,对吧?这里边就就。不得不说Bill inman和RO这两个人了。Billman是写了一本书,叫做building的data warehouse, 他讲这个这个书仓的这个这个建立的这个这个这本书,哎,这本书很有名。然后呢,Rob kimbo是写了一本书,叫做the data warehouse to kit这两个人名字上都挂了data warehouse, 其实两个并不一样啊,Billa们讲的是数仓,可能是从仙剑数仓的。
18:20
规范性怎么去建数仓r kimbo呢?可能更多的是从数据集市,从小的一个一个生长起来,对吧,从数据集市,然后用多维模型等等这样的这样的方式去把数据的这个呃分析在数据集市这个层面来说,两个人貌似有争论,但是实际上对我来说就是从南坡和北坡爬珠峰是一样的,其实没有对错,而且那时候也也传说了一个数据仓库没有成功的。对对吧,有这么个说法吧,数据仓库就没有成功过,因为它是一个不断迭代的过程。所以本身就这个说法就有点偏颇,这里头有很多复杂原因,有的时候我在IBM也经常说数据仓库没有成功的,为什么为了攻击别人,因为攻击别人,假设你过去用泰雷的数据仓库没有成功的,你用了我DB two能才能成功啊,那就就就实际上呢,这种话呢,有的时候是被我这么利用了,英文跟timimbo他们的竞争呢,我呢也是一鱼两吃,我呢不去那个就是说他们谁对谁错,我就去跟客户讲呢,您建这套BI系统,你看里头我也好也需要,等于他纳也需要,它是两个不同层级的东西,你知道客户怎么想的吗?你讲完以后客户怎么想的,客户想的就是这帮IBM又又卖我一个满汉全席加小吃什么什么都要,他不想我有没有那么多钱,对吧,然后我们塞贝斯人过去以后,我们也这样说。
19:56
说你不要听IBM这帮人瞎说,他们就是想卖你们机器,对吧,然后你问问他,把这东西建起来以后,你能跑得起来吗?对吧?然后你应该买什么呢?应该买我的IQ,因为我才能够帮助你迅速的在data warehouse里边找到你想买的那个东西,甚至我能帮你发现你应该买什么,是吧,我想把你买的东西放在你手边儿,话说是这么说的哈,你能看到我们其实在实际的这个就是就尤其是国外的商业化产品,在国内的商业化落地的时候,包括就是一种理论也好,或者是包括就是怎么对客户进行去包装,然后呢,这个其实也是很很专业,很很很值得我们去学习的,刚才我们从烈士数据库聊到这个数仓,数据集市等等这一条线,其实我觉得2000年数据库的初步分型,这是一个一个大的方向啊,以前我们不是有一个说法,你手里拿着锤子看谁都像钉子是吧,到处找钉子对吧,这个是不对的,之前的确是这样,就是大家手里有。
20:56
这个Oracle就认为所有的数据库都放Oracle里面就对了,来管对,但是实际上到两零零年初的时候,数据库的分型非常的开始出现很多了,对吧,比如说刚才说的烈士数据库解决OAP的问题,那还有哪些分型,小金老是或者是陈卓这边有有印象的,我的印象是由是由分布式文件系统化豆。
21:17
对吧,这是这是后来的,这是后来2010年分布式的noco的这个就开始有,就开始出现,对我提一个词time,内存数据库,我把所有的数据跟硬盘都不沾边,我全放在内存里边,这个引领了一个方向,Solid的DB现在应该也没什么人用了。这个内存数据库其实算是一个新的分支,嗯,哦,对,是的,它其实某种程度上对劣势数据库是有一定的挑战的,就是说你在做分析的时候,如果我的格式不是按照你那种多维的这种表格来来存,我就是OOTP的三范式,甚至是进三范式的一个一个范式模型,我存在关系型的数据库里面,但是因为我放在内存里了,所以我的查询效率提高了10倍甚至100倍,客户也是愿意买单的,可能也是会随着互联网的一部分兴起吧,比如说热点的更新啊,查询啊等等的,嗯,这种内存数据库用的会会比较多,然后比如说登录的这个状态机里面的这些token是吧,那你觉得放到数据库里面去弄的你的这个业务的这个并发布,你可能就很多的时候也就不一定是能承载的会很高,之前我还听过客票那个12306的时候,Jim EMC的一个内存库,是不是当时也有这种,就是那个,因为铁路客票的这个实在是。
22:39
直接击穿到数据库的那个压力太大了,然后会去引入到这些是量样内存的这个,其实其实其实我们稍微再抛弃一下铁路客票啊,我记得上两期的时候,我们聊到过这个话题,就是大家有的时候去想说铁路客票就大家在抢票,那我一个人我要买一张从北京到武汉的票,不就是买那么一张票而已嘛,你在你在这么多空的座位里面,你分给我一个座位不就完了吗?实际上不是,中间有大量的业务逻辑要发生,它不是一个数据库传塞是能完成的,我记得我们以前好像聊过,大概是几十个甚至上百个数据库的传塞是才能完成一张票的交易,因为它铁路是分段的,而且还分铁路局,你北京到郑州是归北京铁路局,到过了郑州就变成郑州铁路局,然后后来变成武汉铁路局,你可以原理上认为它不是一张票对吧?另外一个在选票的过程中,上下铺,上铺下铺中铺,这是有讲究的,还有俩人票要挨着,那也也是也是复杂事儿,对吧。国内春运的时候,每天。
23:39
这个铁路客票系统里面卖出的票是1800万张,你再乘个100吧,那就是18亿的交易量,在一天完成分到24小时多少秒,你这样去算,就发现它比华尔街的那个交易系统每天跑9个小时,那个要难得多,要挑战的多,对吧?而且再加上每卖一张票之前,还有数以百计的人没有成功的去问说有没有这张票,有没有这张票,有没有这张票,你这个系统每一次都都触碰数据库的话,这数据库是扛不住的,所以才有了当时铁科研要做最重要的一个动作叫读写分离,所有在数据库里的的负载里边有核心的交易的这个东西我刚才说了很复杂,但是也有在交易之前的所谓的查询,纯查询就是余票查询,还有没有票,还有没有票,还有几张,这个事儿对数据库太太挑战了,所以呢,经过读写分离以后,把这部分余票信息放到一个内存数据库里边,你就刷内存就好,然后我定期的去更新它。所以也就是说你们。
24:39
所有这帮人在这一秒钟看到的信息,其实都是上一秒钟的这个结果,那个还建立在他他的数据的SH2里,分库分表,把那个把那个按照什么维度把它分开了以后,这样才能够变成说啊大致你从广州这些IP过来的人,可能查的大多是广州的这个出发站和到达站的这个票,然后你在北京的大概是查北京的,你们在新疆没有那么多人查北京到广州的这线吧,我我那边数据我就进行分一下,内存数据库实际上是困扰我很多年的一个话题,为啥啊,这个这个这这个跟你们二位分享一下,为啥困扰你,现在还在困扰你,我发现PG里面呢。
25:20
不是有这个FDW接口啊,那我就写一套API,开一个内存,我就把update delete那几个小函数都重载了,嗯,那我的那个那张external table不就从来就跟硬盘不沾边儿吗?这种技术是不是就跟你的那个内存数据库异曲同工之妙了,就是伪内存数据库就伪内存数据库了,所以内存数据库要把前面这几段改了,今天我说纠结我的是什么?一旦你决定了拉3我哥们儿要去为这个社会做一款内存数据库的时候。你会遇到我腾疼疼疼的事。这些事儿稍一不留神。
26:03
有人提出来你这件事儿其实没有价值了,内存数据库在云上面,Reddi年的那个量也也是很大的,就随着互联网的发展啊,Reddi这种产品也已经成为,就是实际上现在很多的那内存数据库感就直接用它,但是我觉得定位还是不太一样,我觉得timeste当时的定位可能更多的还是通过内存的技术去解决交易的效率,把这个TPM这个纯的这个东西提升,Red更像是一个cash database偏只读多一些吧,它并不去解决,尤其是它no c code的这些特性的话,它并不强调去解决transaaction的这个问题,他没有transction,但是QS和TPS就是随便一个就搞到就是10万以上,这个道理就变得非常容易理解,因为你完全是随着介质,然后你基于这个介质做了一定的优化就够了,包括后来的这个SC哈娜,咱以前以为一直做transaction内存效率高,哈纳出来以后呢,恰恰它在分析这个上面,它里头又劣势存储,所以它的空间又能压缩的很小,至少在。
27:03
SAP的这个领域里面给Oracle造成了重创,一个技术型公司,像数据库这样的纯技术型的公司,你的真正的成功有很多时候是出于技术上颠覆,但是更多的时候它不是来自于一个技术上的颠覆,而在于产品层面的一个包装,以及产品层面的营销。我觉得哈纳也是一个很典型,哈纳其实并没有颠覆性的技术,但是一听这个名字,哇,Iapp推出一款哈纳服务器,软硬件结合就特别像IB卖东西的那种价格。SAP在推哈A那个过程中,它的执行力还是真的是很好的,因因为这个事情它不是收购了塞贝斯以后才推的哈纳,他是在哈纳的产品的规划是几乎是平行的时候,他并不是基于塞贝赛Q做的这个哈娜啊,很多人当时也误解,也问说啊,你是这个哈纳也推列视数据库,是不是这个用了IQ,其实并不是,但是呢,他后来把它变成了一个品牌,所以更像是一个ER。
28:03
P公司的一个数据平台的一个品牌,这叫后话廊,你知道这件事情给我的启发是什么?给我的启发是,如果一家足够大的应用厂商,他扯起大旗硬推一款数据库是成立的,腾讯大了点儿,我觉得如果在国内一家不怎么太大的数据厂商,国产数据库,他要是绑使金蝶用友,或者是金蝶用友的老大,他有心兜里掏出点银子收一家或者服一家,给他自己定制一款价廉物美的数据管理解决方案。其实这条路未必不能走,这个路之前拥有走过,现在看我们看到像柯蓝这些厂商,其实就像你说的,这个路径上一个相对来说细分领域里面比较强的一个SSV它自己搞也好,或者是说服一个,对于像IC哈这种的,他12%给oro口,可能一年要十多亿美金的这么一个体量,然后那可能中国的is就是IV可能还没。
29:04
没有一家能到这个体量,所以可能也跟这个有关系啊,他得算一下这个干这件事儿的话,他能不能省钱,不说花多少钱的时候,他能不能跟现现在比能不能有收益,是的,我们的客户可能更愿意去买盒子这个东西是它的资产,软件的资产,那还不如就都打到项目上面,然后变成一个就是项目上一个收益,而不是说我买一个license,或者说对这个事情付费热情度可能确实是没有买一个硬件设备的高啊,但是我有非常不同的观点,我觉得其实这个是你们的一厢情愿,我觉得每一个公司,特别是成功的公司,在某一个行业或者某一个领域成功的公司,它之所以成功是基于他的一个基因,这个基因能够让他在那个领域里成功,同时也很有可能会抑制他在别的领域成功,这是一个不可忽视的一个地方。我觉得SAP收购service,它的目的是为了不把数据库的license给Oracle,因为Oracle从SAP的眼光来看。
30:02
每年拿了我我给他的revenue的share,同时还拿到了我的用户信息,因为他知道我都在把ERP卖给谁了,SAP就一直不爽,没有找到方法,最后干脆我每年10亿美金,我难道不能收一个数据库公司吗?收了塞贝斯以后,这笔钱至少就止血了,到现在他应该是彻底都换过来了,所有的SAP全都是SAP,佛哈呢,这个对Oracle的影响是很大的。回答刚才那个观点,这个基因是很难改变的,你要让一个带硬件基因的公司,你说你为什么不做软件,你如虎添翼翼,硬件加软件。没那么容易的,有很多公司不敢碰,或者是一碰就不一定成功,其实跟他的基因有很多关系,这个基因有对技术的理解,有组织架构里边的阻力,你要做成了,那可能我原来这个生意就没戏了,那我不一定支持你啊,这个是一个很关键的地方,所以就是我们现在看ICP哈马,反正对于ICP来说的话,就是对于一个ERP厂商来说的话,我给Oracle的那部分确实是可以不用给的话,对他毛利立刻就会很好看嘛,这个东西只是它的支出而已,对你看,你看小军刚才说的是sapp,给Oracle是12%,给DB two是8%,后来买了塞贝,分给塞贝S是多少,你知道不知道5%甚至4%,成本就下降了呀,毛利就好看了,不是他立刻他的竞争力就就上去了,他也可以给客户放更低的折扣,或者是说去应对,他去应对那个people soft啊,那些东西的一些竞争也也有利了,所以整体来说,我估计是应该是算清楚账了,接着再说回来啊,说这个细分,刚才咱们聊了一大块儿,聊的这个内存数据库。
31:38
库哈,还有一个细分叫做嵌入式数据库啊,我不知道你们二位有没有这个了解过嵌入式数据,听说过像DB two妄图推一个在palm设备上的一个数据库啊,DB现在最火的circle嘛,嵌入式数据库里边最火的其实还不是C,尤其是最早其实不是C,恰恰是什么呢?恰恰是抛build的,抛build的是嵌入式数据库里边几乎是最早的一个,最成功的一个东西,当时90年代,刚才我们讲到抛Bill的风起云涌,非常的受欢迎,每一个po Bill的里边都带了一个小数据库的引擎,叫做whatcom sequel, 它既是client server的体系结构,但是它也可以在本用,本机用的时候,我给你带了一个叫也按照那个也是按去总部在滑铁卢的公司,所以叫我加拿大,对,是多伦多大学的计算机系的研究出来的一个版本,后来成功的成了C,然后呢,又被塞贝。
32:38
过塞S买了以后,后边经过了几代的这个迭代啊,把what SQL改名叫塞s SQ anywhere, 很多不太注意,就这个嵌入式数据库,大家总觉得小数据库功能不够强,事实上完全不是,因为secret anywhere word有NT版,NT版完全可以跑在一个PC server上popular的,你里面的数据装的不多,但是你要知道C关键味在一个PC版,当时可以跑到上T的数据了,然后它的优化器,它的使用非常的高效。其实2000年前后,我们也看到很多智能设备出现,比如说一个机顶盒啊,一个路由器啊,然后一个电器设备啊,包括工控的一些设备啊,里边都需要数据库,它不可能是一个大的Oracle,你这儿一个跑,一个工控边上再放一个数据库服务器,不是这样的。还有一个特别经典的例子,几乎每一架飞机,这个里边跑的每一个都是跑的一个sequ管,你想在飞机上你怎么可能说,机长说哪一个空姐你去帮我去reboot一下,数据库好像宕机了,不可能出现,对吧,也不能说。
33:38
诶,思索了,或者是这个索引怎么怎么样了,调优没有这事儿,全都是自身你自调整,所以这是嵌入式数据库的一个非常牛的地方,我也谈一下这些年来哈,当扰我的问题了啊,你想咱国产数据库啊,这类问题我作为技术主管一定都思考过吗?所谓的困扰一定是我公司里没投钱去做anywhere,包括S还现在还应该品牌上不算acle之前的这些大数据库厂商的这些玩意儿,在这个小设备上的呢,销量啊一直不算太好,然后呢,我跟那在手机上开发应用的安卓啊什么跟他聊过,到底要不要数据库啊,我得出结论呢,其实是分歧的啊,其实我跟你讲首先一点啊,就是说这个事情我应该非常有发言权啊,就是手机里边一定是有嵌入式数据库的,你认为需要绝对是需要的,如果没有记错的话,IOS里边你苹果的里面应该就是C安卓是。
34:38
卓也,安卓的那个连接人是对,为什么需要有,因为如果没有的话,我们就回到了80年代,写应用要面对文件去写,你的权限也好,你的多租户也好,你的安全管理也好,你的各方面的一些管理都没法做到轻量化。这个事情也是嵌入式数据库一个非常重要的话题,不管是省电也好,还是省存储也好等等这些东西,基本上这是必备的东西。另外一个呢,就是大家会忽视嵌入式数据库,觉得这生意不大,其实不是,嵌入式数据库和边缘计算这两个事情是在一个方向上的,也就是说当这个边缘节点,边缘设备得到大量的复制的时候,那你想你卖数据库服务器你能卖一年卖多少万台吗?手机是一年轻轻松松卖几亿台,我一个给你一毛钱好不好,一个数据库我收你1毛钱好不好,所以他是很恐怖的,我那时候管这个C那的时候就每年大概要飞几次日本,为什么?因为日本S做的特别的好,因为日本人做这些电。
35:38
体都要签个数据都要签个小,而是我在ccole特得到个启发,就是说我现在在要干这个事情的话呢,我不太倾向拿企业版去做裁剪,因为那个就是那个东西呢,最好是平地企业,人家提到的这个不用的时候不要有后台进程,这句话我认为也非常对,所以它里头那个管理,呃另外呢,我觉得未来的方向呢,可以就是说设备之间的互动,设备之间的数据的远程同步复制,这类的事情呢,其实它是有一一定的这个空间的那个方向,可以往那做一些扩展,其实可能也会跟IOT设备,然后包括跟时续的一些的发展,可能会有一些耦合啊,当然可能这个也要看,就是具体我们业务场景,当然相信就在中国,我们的现在的制造业这么发达的情况下啊,或者是说就发展很快的情况下的时候,其实还是能看到就是对应的这个机会和场景的,我们快快说啊,还有两个方向啊,呃,也可以叫一个方向,有两个方向,一个叫数据流,流是数据处理,对stream。
36:38
还有一个呢,我当时在塞贝的时候,专门推过一款软件叫CEP,嗯,CEP是什么东西的缩写呢?叫Complex event processing, 中文的复杂事件处理,这个软件也很专,数据流实际上讲的是数据不以存储为核心形态,而是以流动为一个核心形态,它未后未来存不存我不管,可能存可能不存,对在我这里边,它的重要的特征是以动的形式去过掉,也不是MQ,它实际上是一种数据流的处理方式。CP呢,更强调算法的复杂性以及复杂的处理。当时这个软件直到现在啊,用的最好的就是华尔街的算法交易,算法交易里面的这场景就是这个每一天这个股票的量价变化非常的实时,非常的快,很多美国的投资公司,实际上他们都是在用预设好的算法去做交易。就等于说,这些基金公司也。
37:38
好,股票交易公司也好,或者是一些对冲基金也好,他们事先是生成一些算法,我当时讲的最经典的例子就是说Intel尔和AMD是同行业的类股,按理说他们应该是同涨同跌,如果Intel涨了AMD也没涨,那我就应该迅速的把我Intel的东西卖掉,肯恩把那钱换回来补AMD,我就能追上一波涨。或者有的时候你会发现是反向操作,Intel涨就意味着AMD要跌,因为他们的同一个市场,那么Intel涨了我就要做反向操作,不管怎么说,它是有很多人去研究这个算法,然后这个算法放到交易平台里边的时候,它可不是我提前就知道的,而且也不是一个,它是N多个,几百个、上千个算法在里边跑,然后他靠什么呢?靠实时的股票的报价和量的信息流过这个CP引擎以后,各种各样复杂的出发,这个软件它很专,华尔街要玩这个技术,他又不希望这些startup公司跟他们去买,跟他们去买的话,有一天你死了,我的这个技术没法延惩了嘛,所以他就相信塞贝,S说,让塞贝说你把这家公司给我买了,所以。
38:38
贝斯在0809年那个时候,受这个华尔街的影响和趋势,连续收购了两家CP的公司,一家叫做correlate,一家叫做瑞,实际上是啊,让瑞买了cor,然后塞贝斯去把瑞买了,然后最后又整合整合推推出了一个叫塞贝CP,我突然想起来,原先在IBM的时候呢,中国的软件实验室就在上帝寰宇大厦这边,在实验室里是专门有团队做这个stream的,大量数据进来,我不见得全落库,但是呢,我算它什么?比如说几秒钟内的一个平均值,最大值,最小值,关键是什么,方差、标准差,或者是一个波动性的函数,然后我能把它的不同频率的物立叶的那个参量给全展开,展开以后把那个存数据库,其实里面有一个特别重要的一个概念,就是所有弹到数据流的时候,有一个特别重要的概念叫时间窗口,它是一个滑动窗口,你如果把这个滑动窗口这个事情,就像你说的,我要算这个滑动窗口里边的股票的平均价格,或者加权平均价格这个。
39:38
个动作,你让数据库算,你算死了,你每一秒钟扔十个query,你问他这一秒钟的加权平均数多少算死了,但是数据流就是根据这个滑动窗口的滑动,实时的把这个数算出来,他可能不是把这里边的100条数据或者是1万条数据拿出来做求和,而是做这边减,这边加,他可能求一个尾,一个一个手,然后当年呢,还有另外一个产品,就跟你这个事件一样,那个叫IPO,叫ILO,这个产品呢,其实就是说,诶,你商业活动中什么什么事件发生了,我能触发一系列的对他的reaction,这作为一个solution,对给到金融,给到制造业,给到一些销售出去,可以在00这个年代这个段里边,我觉得数据库开始出现了几个细分,对刚才我们也说了,烈士数据库是一个细分,这个细分其实生命力最久,现在几乎所有的数据库都有了列式数据库的形态,嵌入式数据库比较独特,内存数据库其实也基本上被继承下来了,几乎所有的数据库都有内存数据库的形态。
40:38
数据流,数据流的处理方式,这是00年代的几个形态哈,咱们再聊一个事儿啊,00年还有一个挺大的动静是什么呢?是No seko的出现,这个标志性应该是哈杜09年08年08009年这个是Google的论文,这个推出来以后,整个诶哈杜op这个家族出来的东西,互联网发现,诶第一这个东西先免费,都是开源的,Ready to go, 第二一个PC server就可以用,对最适合我的低起步成本,第三一个呢,就是这个数据量特别大,在这个过程当中的时候,我们也能看到,就有一个大概的动性,就是no seq出来之后,当时不是还说嘛,No是什么意思,然后有人讲no是not onlyq, 刚开始都不像你那么那么谦虚,当时都说no,那就是no c口不以CQL表意,然后呢,直接裸K操作,或者是说像ADFS一样,直接你上去去写那个什么MMR乱七八糟的东西是吧,往上去搞。
41:38
然后像或者是后来再像h bases这种的,其实就是一个大款表,你就就往上去弄嘛,然后后来呢,搞着搞着搞着发现不太行,又演进出来,诶除了这个之外,可能发现诶SQ还扔不了,然后又又有什么have,然后呢,后来呢,就是哈杜of这套东西,再往前演进的时候,又有了Spark,就是快速快速演发,分析查询,然后Spark跑着跑着跑着,诶又出现了Spark的CK口,Spark后来也嫌不够快,后来又回到那个流的那个那条路径上面,又搞了flink出来,然后flink上面又开始发现还是可能sko队直接的这个,或者是我们的开发人员对cco还是比较熟悉的,完全扔掉了cco可能也不太合适,那可能我们抛弃一些别的特性,比如说抛弃一些事物的特性,但是呢,诶,那个C口从原来被完全no cco, 然后呢,就演变成像您说的not only cco, 慢慢的他们的表述也开始妥协,变了花样,那开始往这儿挪,又开始回到了ckcol什么,这个路径其实也是一个挺有意思的,可能最后真的实际上成为一些事实的东西的,可能就是像曼go迪他最。
42:38
在那个文档类的,或者是我ski的场景里面,那可能就只有他了,00年代的时候就是这个运动,他总而言之就是把不如你说成了比你好,本来我是就义愤填膺的站在对立面,然后慢慢发现你也有你的道理,是吧?啊,我也不烦你,但是我迭代你了,我是一个新时代的C客,我的观点呢,跟明叔是一样的哈,为什么有一点点不屑?所以今天的k value在那些做数据库,就从头写数据库的人来看,他是个半成品,还是我说的那个理论提纯呢?或者是理论升华这事儿很重要,如果没有理论升华的话,Noico这东西可能就是一个文件系统,它是谁的?互联网企业起来了,我觉得还是业务的特性问题,包括做搜索、社交媒体,其实它没有那么严格的数据完整性的,一致性的要求,我甚至我说白了,我丢一条,那无非是说你上下文丢了一句话,不是世界末日,你银行你出现一笔汇款,然后这边加了100块,那边小了100块,这是个。
43:38
天大的事,完全不是一回事儿,所以no西口这个事情呢,就是我觉得对我个人来说,我200年那个阶段我是非常扭曲的,我是非常纠结的,因为我觉得这个世界怎么会好像上下颠倒的这种感觉,但是到了10年后,到了20年代以后,我觉得我释怀了,我觉得我真正把这一个整个一个movement看完了以后,对自己坚守的东西还是有一定的价值判断的,就是我觉得数据库还是有数据库的很多核心的高难度的价值的,你比如说您说的那个,就是之前我记得green在网上不是还做hak嘛,就是后来还兴起过一段时间什么C哈杜的活儿,IBM也在做,后来在HDFS上去搞这个事情,还引发出来就是各种的那个东西,但是有一点我觉得哈豆普HTFS这些出现为后边的数据库发展奠定了一个非常重要的一个基础,是开源数据库,就是这些东西全都是非常丰富的,阿帕西下面的这个开源项目都在市尝试,所以00年后期的时候实际上是出现了一个小繁荣,No, 我觉得从革命性上。
44:38
来说,也要给他一些credit,就是他把数据库的那个重的包袱给砸烂了,砸烂了以后呢,他又重打了一个生态,这个生态是HDFS,这个是mapce,这个是Spark,这个是后边衍生出来的一个一个的开源的项目,然后利用这些开源项目,不同的公司也的确完成了它的这个业务逻辑,特别是互联网的逻辑,我不需要用你银行,用你铁路客票这些严谨的东西,我就把这个项目快快的做出来了。这个的确从思维变迁来说,我认为是有它的革命意义,我刚才在沉思,我觉得这东西是自由和专制之间的效力永远是这样的,因为今天的那些C口,那些传统的供应商,License的供应商,20多年的发展已经形成了一种垄断,至少在国外来说,它是要收费的,价格很高,然后它的商业模式也不肯轻易的改变,以前的开源,像MYCQL这种刚起来的时候,你只是比较低端的小的应用,像当年LA的。
45:38
这个阶段,但是到了2010年这时候我有这么抖栋起来了,我的规模又那么大,但是所有的阿帕奇东西太远了,这些企业呢,它已经能构建出非常嗯像样的系统。对,回到刚才那个,咱们举SAP的那个例子,其实也很能,就是说明随着这个互联网的这一波起的时候,要发展,我也要去挣钱,然后我的规模越来越大,我不可能把我的license费用都给你Oracle啊,那我还不如就是找一批人,然后我算一下给他们的工资,发现还是给Oracle每年的这个license和renew,还不如给他们发工资,其实不可能,但是有的时候即便是给他们发工资也是两条,我要给他们发工资,是让们给我写个oracacle,还是让他们去借助我刚才说的这些来帮我,我的能力使得我把这些东西都能做下,不能你再稍微再聊一个不得不聊的话题,就是在00年的后期,国产数据库开始崭露头角了,诶,你能不能给我们。
46:39
稍微讲讲可以啊,像金仓和大梦这种学校背景出来的公司嘛,然后呢,一个是人大,一个是华科,刚一开始的时候,它的商业模式呢,就是还是先就是国家会有一些就是核高级的一些对应的课题,然后呢会分到这些学校,从高校逐渐的孵化出来的这这种的公司,然后去承接这些对应的国家的这个科研的课题,但到00年前后的时候呢,就是国家就是在倾斜这种就原来的可能是科技公关嘛,然后呢,后来呢,就是就是需要有一些就是配套的一些产业上的这个支持,在这个过程当中的时候,应该是08年09年嘛,开始刚一开始的时候,主要大家其实商业化的这个节奏也没有那么快,但是可能就是国家的这个情况倒逼的,就是或者是说有一些客户配合愿意会把一些自己的核心系统换成国产数据库的时候,对金三桑达梦的这个产品本身是有很好的一个锤炼的,后来我记得就是应该是一一年到十一五的时候,经费就很少了,国产数据库那几年确实是比较难,经费少,你市场很多事情又没。
47:39
全全打开,那会儿裁人才的还是挺多的,但是好多人后来就是去高斯的,去那个g time的,然后去微软的,反正就是陆陆续续的,就是也贡献了很多,就是这个现在还在这个圈子里面持续做的一些同事吧,我自己接触国产数据库呢,大概在1998年左右,那时候是因为咱们认识冯老师,华中理工,我还到那个武汉去拜访过他,那当时呢,其实是得到的结论呢,是觉得这年头自己写的东西要提Oracle还是有点遥不可及的,所以呢,那策略和战略上呢,希望做一些Oracle不太关注的东西,比如说多媒体的一些视频音频啊,或者一些啥东西,我非不太支持啊,去去弄弄那个,但与此同时,我认为买CQ的大量的普及,对当时的国产数据库是个非常打压,因为你哪怕咬牙切齿,生活比人苦,那个挣钱比人少。
48:39
好,你东西比人便宜,然后你天天呼吁要正版化,天天反对大家盗版Oracle,那么你呢就能获得生存空间,但是有了买cle以后,你这条路被堵死了,逼的你必须跟Oracle去全比拼去了。所以我刚才特别想说的一点啊,就是像国产数据库的这个成功路径里边,除了技术上的因素,商业化的因素,我觉得还有一个是资本的因素,你看像美国的这些公司,有无数都是源于什么Stanford啊,Burrkeley啊,什么这些UCLA啊,这些大学里边的东西,就是因为有资本的注入和提升,把它脱胎换骨洗出来,然后再进入商业化运作。还是回到刚才我说基因的事情,你不要指望一个在学校上课上的特别好的一个教授,同时他又能够攻坚,他能讲课讲的好,攻坚攻的好,然后还是个商业奇才,然后还是个搞政府关系的能人,不可能的,他能兼两项就已经很了不起了,其实应该是像美国,比如说雅虎也好,Google也好,都是1。
49:39
些校内的孵化项目,然后包括什么mosaic,对吧,这些浏览器都是这个校内的孵化项目,然后通过一种脱胎换骨卖给商人,经过商人的专业化的商业化运作,把它变成了一个成功的产品,我发现就是可能有一段时间啊,像腾讯大家就是这种野蛮生长的时候,到一定的程度之后的时候,学校里面老师去看的一些的技术的演进的东西,和工业的实际的现在的这个run起来的东西还是有一些差别的,然后当然可能是随着腾讯啊,持续的在数据库来投,然后呢,反向的再去跟这些学校的老师去建联的时候,比如说通过你们的一些公关课题啊,腾讯跟人大这边,然后呢也会有一些这种互动之后,相对来说可能还是向好的一个过程,刚一开始的时候,00年前后的时候,小军老师说的这个点其实真的是挺对的,就是买那一波,然后其实影响的不止是互联网,确实是可以不花钱,对于is SV来说,我不买你国产数据库,那这个利润就我剩下来了,那我为什么要做这个事情呢?
50:39
这个让我做研发的人心里也不太顺畅,不是,其实我刚才说的资本可以来自于VC,资本也可以来自于政府,问题是你的整个的基因逻辑在哪里,VC不要丑化他,他给你钱的目的是为了从你身上赚更多的钱,这个趋利的因素导致他帮你想了很多商业化的问题,他跟你站在同一个阵线上,但是我们现在看到的很多政府的投资收钱的这一方,他是就从此开始积极的运作市场了,还是他就开始躺平了?所以我觉得这个核心的问题,政策方面其实也是相对来说也是在一步一步的好一些吧,好很多了存量的市场,然后那OK,其实你看数据库本身的复合增长戛卖或者IDC的报告,其实相对来说是一个比较平稳的,国内就政策,我们造一个市场,然后呢,那行吧,在这个市场里面我也不给你们设太多的规矩了,现在就是都去过采购标准就行了,不会再有一些额外的给你厚此薄彼,学校的会怎么样,互联网厂商的会怎么样,那就是你符合标准就都可以。
51:39
以这种形式,然后再养几年股吧,互相那个特命再打一打,通过就是给你划出来了,这个市场监管方制定好规则,你们各个选手入场,然后就凭本事公平竞争好,我们今天聊了三个多小时啊,我相信一个是二位,应该也都蛮辛苦的啊,我们也相信陪了我们这么长时间的观众们,听众们应该也得到了很多,不管是密星的故事也好,或者是一些观点的启迪也好,这个我希望大家能够从今天的我们聊的这里边能够得到很多的启发和收获。00年代的中国数据库,大家也听到了,从数据库的类型的出现,从no c库的运动开始,以及到国产数据库的初步的开始,那么实际上它后边孕育了10年代的大数据时代的到来啊,我们也特别欢迎大家持续的关注我们的栏目,继续收看。
52:39
收听我们的1020年代的中国数据库的前世今生系列,那我还在读书,应该在初中吧,在读小学,刚刚读高中,我我还是一个孩子,可能在看漫画,Oracle DB图,My circle circle server no circle这个方面有些早期的雏形,比如说想ma DB Oracle circle my circlele mysql, 就是引擎变成了in诺DB 2000年之前记录年份的是用两位数来记录,比如说2000年就只记002000年和1900年,它其实是在数据库记录中是一样的,所以说就会面临这个日期混乱的问题。就去年的就定一个circleq的标准规范了,各个数据库厂商就实现这个circleq语法的一个标准,分控分表开始流行起来,大数据new circle和no circle的概念已经开始萌发,2000年的样子,跟谷歌的三篇论文有关系,G FS map produce, 还有一个big table, 这三篇论文之后呢,就会有一个开源的系统哈杜op,我理解哈杜op的诞生呢,应该就是大叔。
53:39
觉得一开始应该是05年之后,互联网一些用户越来越多了,涉及到有一些大数据的一些需求,在我们国内播起来的话,应该是一二年,电商啊,或者说社交啊,就很大的数据量,存储的时候用单机是存存储不下的,大数据的这个概念开始慢慢慢的的记起来。
我来说两句