00:00
我听的最多的话,也是我最担心的话,其实是我们要做中国的谁谁谁,一个新的市场机会出来,必然有很多人进来去抢这个蛋糕,实际上今天你愿不愿意替Oracle的人跟我写数据库的人,我们双方的想法其实是不一样的,我觉得or尔口兼容性这个话题是个伪命题,我倒认为这个东西一定会做,而且一定要做的真实嘛,HTP的需求真实嘛,TP+AP这两个的需求,首先他就在这两个分别它是存么的,之前我们都一直在有一个困惑,就单单数据我解决的是什么?
01:00
做一个大模型的外挂数据,他们会不会被大模型吞掉?大家好,这次是由腾讯云TP技术指针和明说三人行栏目联合策划的中国数据库的前世今生,我是主持人明叔,我们这次会聊中国数据库在2020年代所有的一些热点话题,我觉得20年代最热闹的一件事情,我必须要先做一个基调的铺垫,就是在现在这个时间点上,登记在册的国产的数据库的品牌名字是超过了280个,还不算上有一些海外的还存在的,也就是说国内现在如果作为一个甲方要来采购数据库的话,它可选的数据库多达300多家,然后分门别类,大致分在十来个细分的领域里边,关系型数据库OAP的AP,纯AP的纯TP的h ta AP的no c code的大数据的图数据库。
02:00
向量数据库,时序数据库,还有各种各样的这些细分领域,这是一个非持怖的一个选择题,我们在这个基调上,我们来聊一聊现在国产数据库都有哪些,第一,它为什么演变到现在这样,第二,一个在这样的格局下,有哪些类型的数据库是大家关注的。今天说国产数据库,其实狭义的来讲还是关系型数据库里头的国产数据库,呃,Orp, 分布式啊,包括新型的no new, 那些各种各样的东西,都是近几年来它从这个大树上衍生出来的很多资产是就这个里边我觉得有注意到一件事情哈,就是这些年甚至从10年代的末期就开始出现,最早叫核高基,核心高技术基础设施,目的是要促进国产的这些软件,特别是基础产业的发展,但是似乎发展的结果并没有达到比较理想的一个状态,或者从结果导向来看,可能也是一个角度。一个是技术的。
03:00
评判国产的数据库,你沃尔可还有多大的差距,因为客人到生产去看这些数据库用到了什么样的级别,有没有到银行的交易核心,还是说它还是在外围,那你觉得呢,我看到的一些情况呢,是今天我们自己国产的数据库啊,已经进入到了一些金融的核心的交易里面去了,证明这还是有一些阶段性的一些进展在里面了。今天的这个数据库如果是or TP领域,你手里拿了个MYCQ或者PG,你离Oracle有多远,它有差距,但这个差距是不是阻碍了你写不出一个银行的核心业务系统,你如果是互联网公司来的,你如果是个跟我一样的人,我认为这个差距我能够在application上。所以如果这个世界上没有Oracle,世界上一开始我出生,我到现在只见到过MY,我银行业务系统一样是能赚的,我一样是能能做的,但是我是另一个方面,我是用了Oracle了。用了很多年,我自己又是所谓的Oracle ACE, 那么我觉得至少在未来我看到的这几年里,不会出现一个能这么替我Oracle的产品。你认为驱动方向不对,驱动力不够强,不是驱动力不够强,实际上今天你愿不愿意替Oracle的人跟我写数据库的人,我们双方的想法其实是不一样的,真正在用Oracle的人,他没时间花心思去用你的数据库去替它的系统,那我给你总结一下你的核心,刚才解释实际上是非商业化,因为这个决定不是我做的,所以我去换掉它的动力并不强,我自己的车其实开着还挺顺手,然后给我换了一个,可能品牌也不一样,感受也不一样,如果有一点bug,我都会觉得特别讨厌。另外一点,因为你说的这个国产数据库,现在进入到金融行业的核心系统,这个话题我其实在华为的时候我也是知道的,并不是说我们想起来要做这个事情,我们要做一款金融数据管。
04:52
而是几家公司分别分到了一些中国的四大行的核心业务去做联创,这个对银行来说是必须要做的,对数据库公司来说,它得到了一个无比难得的一个实验田的机会,不叫实验田,它是一件让他公关的事儿,当然是实验田啊,公关也好,实验也好,公关的东西到哪儿去实验?我就问你说,如果咱俩现在写了一个东西,我现在卖给一个银行,你敢用吗?你能攻进哪一个银行,让人把核心系统哪怕平行跑一下,今天的银行在中国已经发展了30年了,它是一个非常成熟的环境,然后呢,你的产品呢,又没有经过市场的特别广泛的检验,你上来呢,就说那我要换你的核心业务系统了,其实不光是不是国产数据库,你搁那哪,而你这个逻辑都不是很累,今天如果按照中国的中小银行来看,它的核心业务系统的供应商基本上已经不超过3家了,有名的就是神州数码和深圳的常量,其实像神马和常量,比如说你是常量的。
05:52
总工你说诶大哥以后呢,他偶尔口不太好用了哈,今天咱手里要买C口,你以这样的一个数据库,那个容量和这个现在的可靠性,你的核心业务系统,如果撞在这个上的话,你要弄一款新的,你会怎么弄,其实你不会没答案,你认为他们没问过这个问题吗?我认为他们一定问这个,一个问过的问题,这块儿我没参与,但是我认为这块儿没沟通好,我告诉你没有用,这块儿就相当于说人家问你这个问题,第一你不知道答案,因为你没跑过,第二一个就算你说了我行也表明你行,其实这事儿呢,他要有科学精神,比如说你问我一个我自己很了解的技术,我的感换不敢换,我的回答就很明确,很多人你问他敢不敢换,他自己对这些事儿本来就不懂,他痛没法告兴,我告诉你,你就算懂你也不敢拍胸脯,因为这种核心系统,大型银行的核心系统,跨省跨全国网络的,你不做下来你是不知道的,另外一方面,虽然我对这个事情是有一定的诟病的,但是从另外。
06:52
再一个方面来说,我认为这几家数据库公司,其实他们还是很珍惜这个商业机会的,因为这是非常难得的商业机会,让你跟一个全国以乃至全世界一流品牌的银行,以一年、三年、5年甚至10年这样一个时间周期来做这样的一个合作。联创不是这样子的,我今天的数据库能运行了,它支持的CQL语句什么的,我跟银行磨不磨练,他其实对我数据库的feature尔并没有什么增长,那不好说,因为中国的银行业务现在的特点,你要满足啊,你满足了,这有可能你要在数据库层面做一些核心的改动啊,很少很少,真的很少,你做了那么多年数据库了,你推出一个数据库还还非他有,非常你数据库满足我改产品了,你要是这样的话,我觉得你就甭做数据库了,颠覆性的大改动我未必有,但是小改造定多的是我,我们俩说的够多的,我怎么看这个事儿啊,我觉得它是两个,第一个点呢,就是现在的金融核心,其实基本上算被垄断,这个局面一定会被打破。
07:52
只是时间长短的问题,因为没有人愿意被绑架的,所以说作为一个技术核心的负责人来说,他一定会考虑别的出路,有一个backup,所以我觉得像这种被垄断的市场啊,一定在一个时间内会有一个新的竞争对手进去,可能就是另一家外国的厂商,还是说国内的厂商进去,只是说现在的短期的政策加速了这儿的一个进步,让这两边呢握手,然后能快速的相互的去拥抱,加速这个事儿的进程。但是我觉得从长远的一个市场的一个角度来看,这个事儿也是必然的,就像海外他也在去or尔克的一些技术方案嘛,就我蛮赞同明书刚才说的一个观点是什么,这个东西对于我们现在这种厂商啊,它是机会,但是也是使命,这个是很难,我们要冒很大的风险做金融核心,我但凡有一个金融核心的一个故障,那个东西对我们互联网厂商,对服务商来说压力会特别大,做为一个服务商去看待这个事儿,对我们来说其实蛮忐忑的,说实话,但是市场确实在那儿,有市场的激励,还有责任的推动吧,你说的机遇也好,责任也好,情怀也好。
08:52
我都认可,我最关心的是它是不是一个市场的激励,是不是一个市场的激励,还是一个政策的激励,这是不一样的,我们现在看到它还是一个市场激励,因为基层里面的竞争非常的激烈,你看我们今天TT口在金融这儿还是插下了蛮多的旗子,就是标杆嘛,其实打的非常的不容易,各家技术都在PK大家共同的前景,我们看到过去两三年我们TT在这儿的一个投入,以及产品的迭代速度,以及能力的变化其实非常非常快的,所以说这个市场会反向的去催促这个产品,我相信其他厂商也是一样的,国内同样的在做这块市场竞争的一个企业,这件事情呢,我是这么看啊,原先在国外的数据库已经很成熟的时候,国内呢,实际上这些数据库是从学校校园起来的,公司从一开始建设的时候呢,并没有指望它的产品未来要去t Oracle, 他只是想证明国外有这么一些成熟产品,但这些产品呢,我们也能做,我哪怕做个实验性的系统,只要把这个原理中间都能。
09:52
掌握了,中间我还能出点论文,我有些小的细节问题我们攻克,后来大家是要用国产数据库了,很多人说不,你看你不如Oracle好,这句话我认为站在我的标准构不成我的不满意,因为你要跟Oracle差不多反而不正常,但是实际上咱们的可怜可怜在那儿,你呢根本没有空间,我想免费我就买CP,所以我呢,今天见到一些自言自言老泪横流,我怎么怎么做国产数据库就是他这条路子,在我有生之年我看不到他能够追得上奥拉克,这是我对他是这个品牌,我并没有去贬低他,说他什么水平第一,我不扯那个事情。在这种情况下,我回到这个问题,如果把今天的PG跟买cyle给他做了增强,是不是我能离Oracle更近,或者就要行百里路半九石,我做了这点以后,虽然赶不上他,但是大部分业务就能用我的真正的280家里面的200家,他是捣鼓了这个事儿,但是你说我做这个事儿。
10:52
为啥我不去加入达梦做,我为啥不去加入金昌做?比如说到这两家,我说大哥我想这么干,他不带我,他不鸟我,我只能拎起炉灶啊,我只能新建一家公司,我在上面加东西,然后我加这个东西的时候,另外一小哥们儿非得啥新功能不加,非要把PG愣改成一个Oracle,那我想我跟他又不是一路的,那咱俩又变成两家公司,所以我这几个月去接触一家工作,我发现很多人在PG和MYSQ上做自己的增强,每个人的想法都不同,我就发现自家也不行,哎,发现自己也不行,我看到每一家没有我心目中一个挺理想的一个产品,那没办法,我自己动手在这上做增强吧,是这么个劲儿,我不同意你,你先说你的一个新的市场机会出来,必然有很多人进来去抢这个蛋糕,再加上很多人又没有标杆,没有王者在这儿,大家觉得都有机会,甚至呢,有些人就去做一些细分的机会,因为线下的市场不那么透明,又有一些地域性的因素在里面,所以说可能就有这样的局面,但是我觉得这个局面要不了多久,三两年,这个局面可能就。
11:52
会有所改善,因为一个数据库的发展,就数据库我觉得不是一个很好的创业赛道,是一个很不好的创业赛道,它是要重投入,还要是有生态扶持的一个项目,这个生态其实包括什么?它是一个正向的循环,就是你有产品,有用户用,越来越多用户用,然后越来越多用户给你探坑儿,给你提问题,提需求,你的产品才能迭代。比如说你今天要去做h type, 他不是说你做一年半载就能搞出来的,真正踏踏实实做产品,你3年能够做成一个稳定的一个vers,可能5年才能够成为彻底成熟的方案。所以这个投资周期啊,或者什么周期,对于长期要去看这个方向的人,其实挑战会非常的大,所以我觉得可能在接下来两三年内很快能够看到一些结果,可能有一些厂家跑出来了,云厂商在这里面不会受特别多的影响,因为云厂商的大本营在公有云,它有足够多的用户,足够多的业务,包括他自己本身,比如说像腾讯、阿里,我有自己的业务,我自己的业务也跑在我的云上,我自己的业务会不断的去催促我的产品,所以对云厂商这块我觉得冲击不大,但我觉得独立厂商在这个阶段进去之后。
12:52
我得想清楚自己的定位是什么,自己是不是真的要去做一个垂直细分的,能够避开大的竞争的,能够避开去,然后就找到自己生存的点。因为我最近这一年采访了N多中国的数据库公司,其实我听到最多的话,也是我最担心的话,其实是我们要做中国的谁谁谁,或者我们对标的是MYSQ的哪一款产品,或者是PG上什么哪一款,或者我们把两个产品组合在一起了。
13:17
这样的一个BP都应该拿不到钱,有一个很经典的一句话,就是不要去做me too but better, 但是几乎280个产品里边,我觉得充斥着大量的me too but better, 当然你可以说这个时代是不是颠覆性的时代,也许没到这个颠覆性的idea没来,所以大家都在做me too but better, 我还是要回过头来问这些VC们,你为什么要给他投这么多钱,你真的做好了不光是人和团队的滴滴,你做好了市场的弟弟吗?我觉得这些VC们是不负责任的,也许知识不够,你认为两三年以后这个这个情况会有所好转,我一年前我就预测应该是两三年,但是至少在我预测两三年的这第一年没有降,反而在涨,所以我并不认为现在我敢乐观的说,两三年这个市场会会整合的,但是这些将来的市场会会萎缩的,那不知道,我觉得也许这些VC也好,或者一些这些创业公司也好,他们的想法会类比新能源车,新能源车现在也是。
14:18
这是百团大战啊,一大堆品牌那里竞争着,但是貌似这个战场的确成功的从传统的燃油车变成了百分之八九十的电动车,确实给海外品牌的这些油车们带来了巨域大的伤害,所以电动车这个市场的迭代过程给了大家很多兴奋点,但是似乎这个场景没有出现在数据库这个领域,我也在思考为什么?也许因为电动车,因为卖车最重要的研发是一部分,但是更重要的是营销,但是现在做数据库的这波人呢,某种程度上对他自己的品牌的定位和营销我觉得并没有那么懂,所以出现很多同域踩踏或者是认知不清的的一些问题。你问一个普通的CIO啊,你们未来三五年数据库应该怎么规划的,是准备上云啊,还是继续沿用这个私有化部署啊,要买的话,国产品牌买哪个呀,我不认为大家很清楚,是说不出来说不出来的,因为国产数据库到今天我自己感觉到有。
15:18
会有一个叫不可能三角,啥意思呢?就是以Oracle为例,性能、稳定性和Oracle兼容性这三者东西,往往你只能满足这三个东西的两个,它有可能啊,这个产品我认为都有可能存在啊,但是恰恰因为它不懂营销,所以它它藏在一个深胡同里头了,这种情况我认为是比较少见的,这样的话,至少orac口他的投入他那么多年,他这些东西在那儿了,我没见你聚集那些人在山沟里白堆满了人在干跟他同样的事儿,他们吃啥喝啥呀,所以在这个三角里,往往你是要扔掉一个东西,这时候这个多样性就来了,有人强调他的特兼容,那么他一定弄到一些客户,有人强调他的稳定性,他又得抢一些客户,其实市场有这么个小复杂度在里面。
16:03
我觉得偶AC口兼容性这个话题是个伪命题,我认为是中国数据库厂商们必须要思考清楚的一个伪命题,我甚至认为这是一个不可碰的圈子,不能进的套子,万劫不归,会有很多人反对你的看法,没关系,如果我是数据库的负责人的话,我一定把它放在非常次要的地方上。当然我不知道我们的团队能不能够发明创造或者创新出来,不兼容Oracle,但是同样给用户很好体验的东西了。我们在80年代看这些数据库,实际上它就是个方言,因为有NC了,所以才发布了所谓的普通话标准,大家规定好了,全国人民都在说普通话,即使NC统一了C口的方言说大家都统一到这个地方,你也拦不住各家数据库去发展自己的特性,比如说塞Y贝S那个时候的trigger procedure好像是MC89是没有的,后来九二里面慢慢就接收了,Oracle里面有可能有一些小trick的东西慢慢接收了,但是总有5%左右的东西人家不接收。
17:03
那就变成你的特性,那就好像上海人说着说着话蹦出一句上海话,那就觉得地道,你这时候你硬要他翻译成普通话,他别扭,但是反过来说,我因为要去学它,所以我把他的那些老科朗这些话,还有包括他骂人的那些脏话,都必须严格的学下来,我才成为他的兼容,我觉得这是一个伪秘,我倒认为这个东西一定会做,而且一定要做的,我为什么这么说啊?我赞同民宿的个观点,如果大家都理性,这个是可以,我今天不是偶尔我用别的办法来做,但是我们会想两个问题,第一个事儿,这里面有竞争,今天谁要想着我能够让谁更舒服的切到我的系统里面,谁可能就有竞争优势。还有一个点,假如不从竞争的考虑来说,假如今天我们就放弃偶尔和这个方言,我们一起命定一个新的方言,这个方言能不能定的出来,我就得定不出来,谁都不会是服谁,NC那个时代,你认为那几家数据库互相之间服吗?也不服啊,但是为什么NC要跳出来说要统一nc seco, 这是一个强政府该做的事情,是在标准层面去做,但是即使那样,NC也没有说不符合我。
18:03
这个标准的不许上市,所以这个东西是政府的强引导,这个东西很难调和,这不论是硬件还是软件,要能够在商业上达成一些技术联盟,其实挺难的。你看像WiFi,现在一些新的标准,其实还是出了一些问题,不,这个东西就是我说的政府不要去强干预,但是政府可以去强引导,NC标准它不是一个强干预,但是它是一个强引导,说白了,我把路标牌画在这儿了,所有人都看得见的路标牌,我也不会硬瞪着你不往回走,或者不往边上走,但是你相信这280多个,可能有很多人看到了NC标准,或者看到了我们自己的国产标准,那可能就会按照这个方向去走,大家就可能无形中形成一个联盟,这个是很重要的,那你才是推广普通话的一个做法,但我觉得放回今天这个现实来啊,一定是大家都会按照一个就是既有的事实去做,那你要去平替数据库的话,这个工作就得闭,本来就不存在平替,我们做了这么多年数据库了,我们还不知道我们哪里有平替这件事情,比如说我这家。
19:03
是,我心里知道我不能平替,但是人家周鹏他们就在平替,我不就是得完蛋嘛,所以我必须平替啊。从市场竞争角度看,你跳进去你就知道邹鹏他们只平替了一小部分,那不叫平替,那只叫模拟,然后剩下的投入了大量的实施去改代码,华为也是这样做的,不要告诉我大家都有平替,谁也不是孙悟空,你是百分之百,那一定很难的,不不不不不不不,这个你不要用百分之百来形容,80、20原则在这个地方是显现的非常清楚的,你能很快的用20%的精力和时间把80%的feature全做完,但是剩下的20%你是要花80%,就刚才小新说的行百里半九十,你要用大量的精力和时间,甚至还有很多是不可能完成的任务,IBM走过这条路,达梦也走过这条路了,我觉得这条路根本就是一个伪命题,会花费我们大量的无用功的劳动,这些人精力应该用来去做创新,应该用来去做商业化改写国内的现在这个数据库里头呢,真的就是。
20:03
是创新不足的,那么多厂商做半天,你拿出一个MYSQL和PG,你就会发现你能够压过绝大多数人,我们认为开源是基本上很难超越的,开源很难被超越,什么意思?开源它是一场运动,比如说像今天的MYSQL,它的核心不是说就是那份代码,它的核心是这么多人在去玩它,用它,然后把它锤炼出来这个东西啊,虽然说它是免费了哈,但是其实这部分对它的价值和意义我觉得更大,而相反你独立的厂商,你自己从了去撸代码,你想去和这些人PK,其实我觉得是更难的,这个观点实际上我是赞同的,我赞同你的观点。另外一个我也很想聊聊现在的这些分型,类似像HTP,大家怎么看H且三普拉,虽然我没有这些负责,我看到其实有不同的声音,国内的声音是大于海外的声音的,国内其实做这个方案的还不少,包括我们自己也在推出h type的方案,就还是围绕需求走的,所有的数据的维护人员或者数据管理人员,他都有个梦想。
21:03
希望一份数据能够有不同的计算方式,真实吗?P的需求真实吗?TP+AP这两个的需求,首先它就在这两个分别,它是存在的,这个毋庸置疑,我是这么看这个问题啊,这个需求存在,但是咱们假设以PP为基础,AP的这个深度就有的说了,如果说相对比较浅的深度,你就认为这就是AP的需求了,那我这个需求就肯定存在,如果说你把AP说成是很深的深度,那我就会打一个问号,因为我说你特别复杂的,涉及数据面特别广的这种分析呢,逐渐的会出现在or TP系统中,所以他的那个所谓的有和没有呢,跟你内心中所说的那个AP的这个深度有一定的关系,这是我第一个想法。第二个想法呢,我个人认为我是愿意把h tap呢,跟数据仓库是要分开的,因为我是一套or TP的业务系统,我虽然要分析数据,我有数据仓库,但是你知道就玩数据仓库的人是不认为数据仓库里的。
22:03
数据结构跟你的TP系统是相同的,所以我的ETL不光是往那儿拿数据,同时也转换了它的steam存放,所以那套系统它是个数据仓库系统,专门做分析的,这个东西呢,我不认为会被h tap完全替掉,我h tap呢,就是来满足您说的那些希望用一份儿数据兼顾TP和有限度的AP的这伙人,那么这样的一种需求如果存在的话,是我h tap这个平台提供的,这样的话呢,不会让他每次一个查询都去找仓库了,仓老大的费他在这上解,但真正的瞎腾那些人,那种长期分析员,他是去AP去折腾去了。我其实这么看的,既然是个hybrid,那它一定是解决了在某种程度上它是同一份数据或者同一种表征的存储形态,在理解这个h tap的存在之前,应该要去理解极端的TP和极端的AP,极端的AP大概有两种,一种是数据量极。
23:03
大一种是格式及严格,那就是走数仓,或者是走海量大数据这个方向,我们说这是AP在上面做数据挖掘啊这些东西,那这个模型一定是跟TP是完全不一样的,之所以因为模型不一样,才存在这个ETL的过程中间,它一定是既不能到那个数据量,也不能到这个强度。其实我想起来2016年我离开高斯的时候,我给高斯做的最后的两个规划建议,一个就叫做强AP弱TP,什么意思呢?TP再弱,满足百分之八九十的TP的需求也够了,但是AP我认为是永远是大挑战,因为你数据永远都会不断的滚进,不断的滚,越滚越大。我看到了一个情况呢,你刚才说的系统呢,它是重AP轻TP,因为你拿了一个原本AP为底的一个东西,也不是啊,我再说一个,当时我们在做CVSIQ的时候,CV赛Q知道吧,是最早的烈士数据C。
24:03
IQ你把它的内核掰开了看,它就是一堆列,就存在文件里边的一堆列,它可能不是文件,但是存在里边的一堆列,但是它怎么管理这些列的原数据或数据字典呢?搞了一个嵌入式数据库,就是SQL anywhere, 所以本身CYBCQ里边就两个数据库,一个是基于行存的SL anywhere, 一个是完全的列式存储,但是放回来行存你看不到不是,这就是trick行存,这个数据库用来接你的CQL,用来做CQL解析,所以你所有的CQL语言都是由cql anywhere来解析的,解析完了以后通过查询计划去到列存里面去查,所以真正的分析的效率千倍的提升,千倍的压缩,十倍的压缩等等,这些东西都是来自于列存,这个也是一个早期的h tap, 我用SQ anywhere去做简单的TP,我从这个TP往AP里边去做抽取的时候是库内抽取,速度也超快,我现在理解如果是周鹏里面做h tap, 实际上是你会用一个。
25:03
的分布式的架构,就把今天这两种数据库就用统一平台了,为啥这么说呢?就如果说今天你让我去做orrap的话,那么我的数据库的外观长相应该架构上跟green plum很像,底下有很多数据节点,上面有协调节点,但是今天你如果去做TDC库里的or TP的话,实际上呢,底下也还同样有数据节点,只不过呢,你的那个协调节点呢,可能就不止一个,因为我要是支持大规模的前端,那我可能协调节点多个,实际上这个结构跟我的AP的结构在外观上是很像的,这时候我真的就会有一种冲动,我把这两个引擎给置合在一起,你的AP的语句来了以后呢,我其实内部的优化器我换成AP的优化器,我生成AP的实行计划下去,如果TP的话呢,我去走GM,或者我去走的步是10周去把trans的时间给协调住,保持数据的这个可见性,一致性,其实都不用那么复杂,因为我们有TP的数据。
26:03
我们有AP的数据库嘛,我们有MY,有PG的,还有T,那就分开做,上面不是有个嘛,往两边写,QL来的时候就去判断,你这个里面有一个,看一下它的代价是偏AP还是偏TP的,双写有一个问题,尤其是你两个不是一个格式的写,写到1000万次以后,有一个不对的,你到时候怎么对这个数据有一些切割机制,不是你两个数据集你不对的话,你都不知道哪因可能不会基于双写来做,应该还是会基于日志来做,因为基日志可回溯吗?大厂今天的它的HTP指的是这个领域,它跟那些Oracle里头稍稍有一点点侧重的不同,反正我们从我们各自的观点把这个HTP聊一聊啊,下一个类型我比较感兴趣的就是图数据库,图数据库,现在像海外有人用for j, 腾讯这边是不是也有一个叫什么图啊Li graph, 所以图数据库的发展,目前大家怎么看图场景啊,有几几大块儿一块儿呢,是金融的反欺诈,还有知识图谱,这还有推荐社交媒体的推荐,也其实它是一个非常垂直的一类似,就跟们。
27:03
可能聊的持续数据库一样,它是一个垂直场景,它不是一个通用数据库,图数据库的发展吧,我觉得过去几年我们也会一直在纠结,就是说我们在亿摆就是这个事儿究竟值不值得投入,因为之前看到线下金融那儿还是蛮多,其实说实话在线上公有云上面或者互联网这儿采用蛮少的,为什么?社交媒体的那不是互联网的一大类应用的,自己用KV店多查几条你就能查出来了,他不一定非要去构建一个图,用图论的算法去做这个东西是不是更自然或者是更高效,是的,在细分里头是更高效,这个场景它一定是最优秀的。那么芒果大家在提示给开发者了一个很好的一个开发界面,所以大四的人家用了,那么为什么图数据库的给了一个好的开发界面,好的使用界面不能够得到重视,这儿就回到了一个问题,是商业和生态的问题,它首先是一个领域型的,它不像mango,它是还是做一个通用数据库去推广的,那今天你不管在电商、游戏还是什么场景都能用,但图的场景就只能么那么几个细分的场景,这是它的整个用户规模,你家觉得体量不够大,对,这是一个点,第二个点就是用户规模决定了生态图啊,你看到今天。
28:03
可能没有一个统一的一个生态的东西,更不用说从运维的角度,维护的角度来说,维护的角度今天更没有几个人能玩的透了,那对开发者来说,说实话,现有的这些语言的东西对开发者不是那么友好,我们写过代码的,你今天回头你去看图的语法,图的查询语法其实还是蛮晦涩的,所以说很多开发者,我如果能够用MYSQL多跳两次join,能够解决两跳三票,我也看看,说白了这要的就是图论知识,要的就是这些形式逻辑代数的知识,把那个东西变成一个计算机语言,一个开发语言,底层实现不用变这个查询,用各种各样的位词把它做了就完了嘛。对,这后来还是说由需求驱动,就需求少之后啊,投入就不会那么大,不一定是需求驱动,就比如说向量数据库,它是先于需求而做的数据库,现在需求出来了,大伙儿觉得是需求驱动也未必,图数据库也是一样。那么其实我觉得每一个东西都存在一个教育市场的过程,对,可能站在我们的角度啊,我我们得从两个角度来看,一个是商业,一个是技术的发展。从商业的角度,比如说我今天是在负责这块的产品商业化的东西,我要站在商业化的角度看我的投入产出。
29:03
不对,这个东西它是在早期的,你不能够看商业产,你要看商业产出,用商业产出来看这个数据库的发展,就等于给他枪毙了,因为它没有产产出,它产出一定是小的,他是这样的,你看腾讯云,我们也有图数据库,其实我们也有前瞻的投入啊,但是在后续你上线了之后,他的市场的反馈之后,这块的投入肯定就会减少。今天的图数据库其实是网状数据库的一种螺旋上升,或者是一种升华,所以如果哪天要标准化的话的话,大学里面应该是有一些答案的。再解释一下我当年在的公司为啥不做,以前我在的公司是以PG为内核发展的PG这种数据库,它的扩展能力很强,所以你一旦跟我提出你有一个新的数据库的要求,我往往不会立刻去重启一个新产品线,我先看你的这种需求能不能在我的框架里通过我的扩展去把它解决掉,或者效果怎么样,那么这时候是我如果在这儿已经能解。
30:03
提到一部分,我就不另其生产线了,我只是说我的产品提供了图数据库的功能,就是我的这个关联性。因为我父亲是最早在中国写图论的,教图论的教授就是中国第一个写图论这本书的,我从小就看着我爸在写这个图论这个东西,图论应该是图数据库的底层的逻辑,我爸在整天写那个图论这个书的时候,我都已经整天听他讲了一些故事了,什么七桥故事,破郎蛋问题,就讲讲最短路径的话题,就这些话题都已经有最佳实践答案,数学答案,当你有数学答案的时候,实际上这个事情会领引领计算机界,或者引领这个应用界几十年甚至到上百年,因为你数学不颠覆的话,几十年的迭代无非是实现而已,没有什么理论上的突破,所以我是觉得大家应该回归到图论或者是图。数据库的原本性问题,就是它解决了什么问题,是别人没有解决的,他一定不是关系型的问题,他是图问题,图的问题大家现在也基本都看清楚了,就是那几个问题,社交媒体啊,影响力关系啊,智慧推荐,包括风险风控啊,知识图谱,类似这些东西,你把这个东西分完了。
31:03
以后就是要看它的核心价值,然后来评估这个市场有多大,这是产品经理应该干的事情,而不是说我现在投入进去以后,他没有给带来产出。我认为这个说法和这个理论是不对的,因为它不可能给你带来相应的产出,因为它不是一个成熟的产品,它是需要有人、有公司、有市场的活动去大力推动它的独特性。所者我们对它的整体的定位就是它解决在腾讯上有和没有的问题,我们首先可能去解决这个问题,现在已经解决了,但是在长期的发展来看,这块儿还需要一些需求啊,或者市场你老提需求,一提需求他就不对了,他一定是别的数据库养这个需求,把这个需求养出来的,是要靠宣传才养出来的。所有在做社交媒体的,或者所有在做安全关系分析的,或者类似这样的东西的,你就应该告诉他,只有一个最好的数据库来解决你这个问题,就是图数据库,对,其实呢,这儿涉及到一个点,一个产品是因为你销售的投入力量足够大才能卖的好了,还是他的需求足够强才卖的好,其实这也是一个问题,不同阶段,在现在这个阶段。
32:04
我认为这个就是marketing的问题,如果没有人去洗脑,这个事情只可能陆陆续续死掉,而且这个事情应该怎么做,也许不是一个纯商业化的动作,但是应该是行业性的动作,也就是说类似像行业协会一样的几家公司都有图数据库的人候,应该组成一个行业协会,由这个行业协会不断的去办相关的会来洗大大脑,这个之后大家都受益,这是他现在的一个分支,对,这是需要有人牵头,哇,我看出来民宿对图的钟爱,那有必须的。今天在大模型在这些人工智能来的时候,他给客户提供的这些能力,其实对图数据库是一种冲淡,因为之前我在图数据库上做知识图谱的那一部分的功能,今天北大模型的人工智能的东西有所减弱,你觉得是不是这样对,因为我们刚才说了图数据库它的几大场景里面,知识图谱非常大的一个场景是什么?做智能客服就问他,这是知识图谱,就图数据库之前很重要的场景,也是当时我们觉得需要去坚定决心要去做图数据。
33:04
负那个事儿的一个支撑,但是今天大么逊出来之后啊,对这个场景的冲击会非常的大,但是那个是应用层,你这是基础设施层,我觉得不能够这么带,因为它成本不一样,成本完全不一样,但是它的效果,或者说它的实现方式会更简单,但它效果好的原因是因为人家做了上千倍的数据的积累和模型的演练,而你们做了一个基于图数据库,做了一个知识图谱,只是一个窄域的适配,我觉得这个不能这么比,整个投入的量,就好像说小朋友搭了一个积木,然后现在说我再也不搭积木了,因为你看那个大坦克都出来了,我做什么事情他都一炮打死了,这个是不对的,但是我们今天看到的时候,相对来说对这块冲击蛮大,原来去做智能客服的人不多,你没有LP的技术,没有图相关的技术,你碰都不敢碰,但今天不一样了,那今天反正我拿个模型出来,搭个现在数据库,我一个问答系统我就敢上线了。我看到的是原来在做智能客服的场景的这些企业,今天全部把它的技术方案升级到大模型的方案里面来了,今天人工智能他泛化的理解你的语义,能够让真正的智能客服能够变得更人性化了,更自然,我同意。
34:04
但我还是要强调说,这两个不是在同一层次比较的东西,一个是在纯应用层,甚至已经到了交互层,另外一个呢,是在基础设施层,从数据层,但是它有个问题就是什么它下面支撑的技术就没有考虑原来的方案了,但是我们看到确实有人今天在用向量的技术和图的技术在去增强语义搜索的确定性,因为语义搜索它有泛化的一个效果。比如说我举个例子,一个客户他想搜课程啊,我要搜第一单元,但是因为语音的技术,他能够把unit one给你搜出来,这个是泛法图,会受到大模型对他的一定的冲突,但是是不是绝对的和灾难性的,我觉得倒不至于这个话题,我们也下次留一个坑,我们希望能找到图、数据库或者是专业的人员来给我们再做深度的答疑。邹鹏,今天提到了向量数据库,我们把向量数据库聊一聊,这个是一个蛮热的点,最近我想也是随着大模型的发展,我的确也接触了很多向量的数据库,包括你们也有向量数据库vector DB, 然后还有PG vector类,我原来带到中国的3RA,现在也摇身一变做AI,这些东西就都来了,原来是个真实的一个需求呢,还是一个短暂被烘炒起来的一个需求,其实腾讯云在国内在云厂商里面,你看到我们的步伐是相对较快的,我们是第一家推出独立销量数据库的一个厂商,而且我们最近的迭代也蛮快,GPT在去年10月份发布的,但是呢,为什么是今年向量数据库才火起来的,今天量数据库火起来一个点是因为open I的gpda发布了一plug plug in的作用是什么?明显大模险来去调你的数据,这里面他就提到了相链数据库的技术,就列了一堆各种插件的RA啊,PG or mirrors排on啊之类的,在这个点上我们当时就去看到这样的一个情况,我们呢也实际去做了一些调研。
35:46
啊,我们可能调研了100家企业里面可能有二三十家已经在采用了,之前我们都一直在有一个困惑,究竟单单数据库解决的是什么?它作为一个大模型的外挂数据,他会不会被大模型吞掉,这是一个非常重要的,就是今天大模型都是基于公开的数据来训练的,所以说他能够对公开的一些知识非常清楚,但是对企业私有的知识他其实是不了解的。怎么让这些大模型能够为企业服务,你要把你的数据喂给他,喂给他有两种方式,第二种方式叫预训练锤,你把整个模型垂理出自己的一个模型。第二个方式就是微调,在一个基础的模型上做factorter,其实这两种技术今天包括到目前为止也是享有的,一个企业能够去run起来的一个动作,如果你要去吹领一个几十币,不是百币哈,就几十币的一个模型,这成本其实一般的企业承担不起的。Fight turning的问题来是什么?我们看到为什么今天国内都在提,包括腾讯云在主推的一些叫行业大模型,其实是一个翻turning,但是他要基于一个行业的数据去做turning,而不是说基于某个客户的数据去做turning,所以一个客户级别的数据去做turning啊,可能你的数据和这个模型的数据的比。
36:46
也太小,起不了太大的作用,而且这个turning是需要技术的,他不是说我真的拿着一个东西,就是让我的数据就补进去了,我也实际上走访过几家企业,刚开始他们在尝试去做翻ing,给我的反馈就是几十万毫的数据进去,其实效果就像在海里面抛一个石子一样的,很难有呃反馈,其实这就导致了什么,我今天如果让大冒险为企业服务,我已经用的训练的方法其实是很难,代价很高,很难起到非常有效的,立马就立竿见效的效果。外挂数据库就成了一个方案了,而且它的成本又低,就是我把数据往传统数据库一样往里面塞,我去把数据招回来,然后再去把它丢个大模型推理就OK了,大模型这个时候变成一个计算,它这个角色是一个逻辑计算的一个处理器,这个方式我们看到是什么企业像把大模型为企业服务,要是和数据结合,最成本最好的一个方案,这是我们刚开始去看到的它最重要的一个价值,这个技术会不会被替换掉,假如说有一天催眠的技术,催眠的成本非常的低了,或者催眠的效果也非常好了,但是。
37:46
是不,现量数据库就没空间了,支撑着我们当时为什么要去做这块儿的决定,我们觉得现量数据库不会被大冒险吞掉,不会被这个黑洞吞掉的一个点是怎么了?在于几个点,我们目前看到的现状是催理的速度,催理的成本,已经催理的效果还不弄好,这是当前的现状,我们从更长远的一个角度去看,第一个从数据安全性的角度来看,今天如果你把模型的垂离到一个模型里面,我怎么保证不同的用户访问能够隔离不同的数据,其实这个技术我觉得短期内很难的。还有一块就是我们的数据的质量,其实它不仅仅是现在这样的,他还要正常改查,你怎么去解决传统的我我今天一个知识库,我今天一篇文章,让这个大模星学到了之后,我要去修改它,我今天改了3次,你是不是催你3次,其实这也很难。还有一块角度呢,你去看计算和存储,它究竟会不会融合,从我们过往的发展经验来看,计算一定是越轻越逻辑方面去做,它会跟数据还是要分离,因以前的大模型开源,那些模型太重了,会导致非常吃GPU,怎么让它加速,就是减脂或者量化,他不会说把今天把所有的数据都喂进去,让这个模型。
38:46
变得非常臃肿,既带计算又在的存储,所以这块呢,就支撑着我们说后面数据跟计算会分开,大模型不会吞噬掉这个东西,一定会有一个角色来去支撑着大模型做数据的检索,现在呢,我们看到就是向量数据和形态,就未来假如说就算不是向量数据库,你需要有人在支撑这尔塔去做检索,所以这是支撑着我们去那么快的下决定去做一个独立的向量数据库。
39:10
它核心的依赖两块的技术,一个技术呢是神经网络,就是你要把你些文本图片转成一个向量数据,向量数据就是一个数字,里面有一堆的float,因为你第一个文本不可计算,你最终转成向量之后,它才能够可计算嘛。那另外一块呢,就是我要去算两个向量的相似度,假如说图片搜索,我这里面有一张商品,我要把最相似的这张图片搜出来,那什么便利,但是便利呢都有个问题,就效率低嘛,那就用到索引的技术,所有的技术呢,就是相当数,就最核心的实现这个索引功能,然后腾讯在内部大概也是在19年还是一几年就开始有了这样的一个独立的数据库,叫相量数据库,其实那会儿在内部也更像相当于索引啊,相当于引擎的在内部跑,我们在腾讯有个BG叫PCG,就QQ视频他们有一块儿,因为他们做社交推荐和广告就蛮多的,他们有一块积累,就把从他们那儿积累了四五年的相当数据库的引擎搬到云上来,再结合这个云上,我们管控都是就一套一个内核加一个管控上来,两个半月就把一个数据库推出来了。
40:10
怎么看未来几年中国数据库可能的发展,或者说如果你现在能够对未来的中国数据库做一些建议的话,你会建议什么?我还是回到向量这儿,怎么来说呢?因为向量它这个技术代表的不是一个技术的顺延的一个迭代,不是一个技术升级,就像我可能从PC到移动互联网,我觉得它还是一个小技术的升级,但是它的范式没有变,但是今天大模型出来之后,我觉得对我们做it的这部分人,它可能是一个范式的一个变化,我的范式变化是什么?今天只你用大冒险的时候,你发现对话式的交付能够让他去做一些任务了,我甚至不需要程序员,我就能做出一个应用,这种计算方式的一个变革啊,回过头来就对应的数据也是一样的,向量数据库为什么能够跟大冒险这种匹配,是因为今天向量数据库的数据调度的范式也产生了一个范式变化了,我们原来的数据库相建模,然后再用各种的专业的语言去调用,用C口,用API或者用各种命令去调用,今天你发现相量数据库数据的调度方式,什么自然语言,我就对话,我提问,然后。
41:10
他会直接把我问题相关的知识给抽出来,这就是为什么他今天能够跟大冒险匹配的,因为大家对大冒险的一个期待是到3年左右就会有非常确切的商业化的落地,3年左右大模型一定会到商业化成熟的一个阶段,所以在商业化成熟阶段,我们慢慢看到一个趋势是什么样子呢?就是现在数据库会和传统的搜索引擎技术相结合的,一些泛化的技术和传统约束的技算混合在一起,让这个数据变得更精准,如果能够非常的接近这个场景,我们可以想象一下未来还需不需要就是传统的些。呃,我的看法是什么?我自己的这个感觉呢?在未来的几年里头,这些传统的像奥尔ha这类的东西会被大范围的国产化替代,T的那些里面呢,今天的那些大厂,它会占据比较大的份额,因为我认为数据库这东西,它不仅仅是个产品,它有整个服务体系、支撑体系,客户学你东西还得看未来你这个企业能不能支撑,除此之外,我认为它有个契机点。
42:10
是什么呢?未来新的应用会起来,新的应用模式会起来,只要有人愿意去开发新的application,或者以新的application的架构去取代现有的东西,在这个浪潮下,它就不仅仅是个普通的国产数据库替代这么窄的一个话题了,而是一个更大的it上的人工智能的一种趋势,把以前的旧的技术慢慢的给淹没掉。我也说说现在对未来的一个个人的展望,一方面呢,看到这种蓬勃发展的势头是可喜的,但是阶段性来说呢,又是非常嘈杂的,我不认为这个状态能够很健康的持久效,但是这个要看最终怎么演变,不光是厂商的演变,也是客户的演变,以及市场的演变,投资的演变等等,因为你在这边投入的时间、人力越多,你在另外一个下一个机会点上投入的人力和精力就不够,第二一个从展望来说,当然我希望产业会有一些整合,整合出一些更具实力的技术型的厂商,或者是业务型的厂商。不仅是在中国市。
43:10
特别是在全球化的这个市场上,能够把我们中国的数据库推到海外,我认为是未来的一个必经之路。第三一个跟大家最后聊的人工智能的这一波发展有很大关系,我认为人工智能对数据库,不管是AI for DB, 还是DB for AI, 还是AI+DB以后,产生一个新的形态的什么样的infra的东西,这个都很值得我们去展望。你可以认为前面一段时间大家都在低端的重复低端的这个copy,在商场上在做低端的竞争,但是我认为很可能一个大的机会期,一个大的波段期正在出现,就看谁能够抓住这个波段期,然后勇于投资,勇于开发,这个时候是真正拼刺刀的时候,在这个阶段上,至于说是什么,最后以一个什么形式来呈现,可能也要看我们视频前面的这些数据库的从业人员们,280多个数据库品牌背后的这些大脑们,包括这些商业的投资人们,跟我们一起能够来探讨这个事情,并且帮中国的数据库做成一个更加健康。
44:10
创的发展,如果大家认为现在的数据库市场是一个军阀混战,群雄割据的话,那90年代市场就是最早的春秋战国,这个话我也说过,但是不管怎么样演变到今天,还是看到了很多起起伏伏各种各样的故事,我们花了五期的时间,把中国数据库从80年代、90年代到00年,10年到20年代的演变的历史,通过故事,通过一些技术的案例,通过一些厂商的技术的分析,我们大概的总结了一下,也非常感谢大家一路的跟随,一路的观看,我们的口号是TPP,用科技影响世界,未来的日子我们一起同行,朋友们再见。现在的这个时代,对于我们这些做数据库的这些人来说的话,其实是一个比较好的一个时代,我们其实是有机会去用我们现在能掌握的方式,去把我们现在的这些it基础设施给重新去定义一遍的,数据库这个这个事儿,尤其关系型数据库这一片儿,基本上这几十年基本原理没有什么变化,但是呢,他每次呢,都会给你一点小惊喜啊,都会有人在一些点做出一些创新,然后让这个数据库有所改善尝试不算,AI这个新兴的生产力能够给数据库带来什么样的变化,会把数据库带到哪个方向,数据库要怎么样去发展,来适配AI的一个发展,其实这块是充满一些挑战和需要探索空间的,大家进入了一个最好的时代,也是一个最不好的时代,这个市场上对数据库人才的稀缺程度是非常非常高的,但是不好呢,就是这个市场也是无比的卷,不要丢失自我。
45:55
要想找到自己最合理的定位,随时准备跳出来迎接下一轮的机会,因为机会就在那儿。
我来说两句