00:00
大家下午好,非常荣幸来到腾讯的呃,向量数据库的产业峰会,我来自中国信通院啊,那么刚才卫所给大家介绍了数据库领域的全球发展的趋势,以及向量数据库的发展的一些背景啊和发展的一些趋势,那么我来简单的介绍一下下量数数据库的技术,以及我们正在做的这些标准,以及未来标准的一些呃展望和计划。那么我们讲我我来分享三三部分的内容啊,一部分是讲它的起源啊,第二部分会讲向量数据库标准的历程和内容啊,第三部分的话会展望一下未来。啊,那么刚才为所也提到了整个向量数据库在呃,AIGC时代的大模型时代的一个重要性啊,那我们依次捋下来啊,先看一下几个基础的一些概念啊,向量是什么?啊,其实就是AI来理解世界通用的一种数据形式啊,我们都知道数据各种各样的格式,但是怎么让机器学习,深度学习这些大模型来理解更好的一种模式,就是向量的这种模式啊,来去把很多这个世界里面的这些语言信号翻译成向量的模式,是更适合机器来阅读的。
01:22
那么向量数据是由数值向量的构成的整个数据集集合啊,它又有一个自己的一个定义啊,它这个每个每个向量表示着多为空间中的点或者特征啊,就是向量数据的一个定义,刚才我们也讲到了embedding这样的一种,呃,一种一种技术吧,啊叫文本啊。这些语言转化为呃,保留语义的向量的这种数据啊,这是be尼这样一项技术,那么接下来就面临的向量的解锁啊,我们把这些呃,这个向量的数据存储下来,怎么去做模糊的匹配、解索、搜索,这其实就是数据库最擅长干的存储和检索这项工作。
02:06
那么回归到最后向量数据库啊的一个基本定义啊,它是向量嵌入的方式,存储和管理向量数据的一种数据库啊,我们看到这个世界里面很有意思啊,我们很多种的数据最后承载,最后就是数据库这种形式。啊。就是为所刚才也提到数据库是一个发展历史很很悠久的,大概有60年的这样一个时间啊。但是他没有消亡,它是越来越发展的,更繁荣起来了。我们在各种各样的数据诞生以后都想象着。怎么去落到一个数据库这样的一个技术软件里面,去存储它,去解锁它啊,在向量领域也是这样的,那我们看到整个的产生的背景啊,刚才这个陈总也讲了啊,80%以上的数据都是非结构化了。啊,虽然我们的结构化数据很有价值,在我们企业里面啊,但是未来的趋势是越来越多的非结构化的数据占据了大量的我们的整个的消费领域啊,生产领域。
03:08
啊,那么这些数据很有意思啊,都是结构类型不同的啊,有文本的,有图像的,有视频的,音频的等等,那么怎么让机器去理解它,计算它,认识它。最后发现比较好的一种模式就是转化成向量的一种格式。啊,方便机器语言,包括尤其是这种大模型啊,大大模型来去消费它啊是更好的啊,所以啊,针对这种需求啊,需要有一款数据库来承载销量数据啊,这种爆发式的未来的一个增长。那么向量数据库啊,通过数据的算法和计算机的一些工程,将向量的特征啊进行分组和索引,实现高效的相似性的一个搜索。呃,其实我们去今年的这个六月份报告已经展示了向量数据库是我们整个数据库领域发展的一个重要的一个趋势啊。
04:07
他未来有大量的应用场景啊。那我们看到整个向量数据库的一个定位,在大模型里面是给他提供一个记忆的功能啊,有记忆的一个交互流程。啊,整个的这个交互分为几个步骤啊,在大模型里面怎么使用,首先是我们的语料库或者知识库的入库,在向量里面向量化以后入库啊,其次我们紧接着用户的一些提问发过来以后,转化成向量的这种呃模式啊,开始进行一些呃检索。啊,如果有的话,我们就返回相应的这个知识匹配啊,后续的话又会引发新一轮的这个pro啊,去调用open AI的一些接口啊,这些大模型的一些接口啊,返回更多的知识涌现的一些知识知识结果。
05:00
啊,他整个的流程大概是这么四五部啊,在使用向量数据库里面。那么向量数据库也经历了一个发展历程啊,我们初始阶段的话,主要是文本形式来去,呃,这个存储文本形式这样类型的这种向量的数据的啊。然后发展阶段二就开始啊,呃,实现了一定的这个呃查询的性能啊,但是整个的这个查询的效率还不是特别好,那第三个阶段我们叫慢慢逐渐成熟了啊,我们多元的数据的向量化以后怎么进行重组,然后以及高效能的,高性能的这个加速这方面怎么做一些优化啊,这是第三个发展阶段相对成熟的一个阶段。那么很有意思啊,刚才魏所也讲了,国内和国外的数据库发展产业其实有代差的啊,虽然我们在努力追赶,但是你看到整个的这个发展的趋势是有代差的啊,就是国外是以开源为主,国内是以这个商业化为主啊,我们的阶段还是滞后的,另外国外是以非结化为主,我们是以结构化为主,这说明都是有一定的滞后性的,那么在这个领域里面也是能体现出来一些代差啊,我们还是商用为主,其实各大商业公司都在推出我们相应的数据向量数据库的产品啊,比较丰富了啊,开源的也有两款啊,但是很有意思,国外的象限里面很多的都听,都在向量啊,都在开源的这种模式里面啊,说明他们已经形成了比较开源的一套的商业的模式和打法啊,相对比较成熟的一个软件产业的发展的逻辑啊,这其实是有一个背后的逻辑在里面的啊。
06:46
那么我们看到啊,除了这个呃,向量是这个进行多模数据的压缩以外啊,向量呃,这个进行一个解锁,核心的一些应用场景做一些解锁,进行一些模糊的匹配啊,这里面的应用场景非常多了啊,推荐系统。
07:02
图片的识别啊,自然语言的一些处理,声文、音频,基因等等多元的这种多模数据的一些处理,全部都可以通过销量来去做啊,所以我们讲的它可能不仅仅是大模型时代的一个一个一个底层的一个技术软件,是整个AI的。这个这个处理的一个基础软件啊,整个非结构化数据的处理都要通过机器学习算法。提取出相应的向量作为表示的一种特征啊。所以向量数据库的,就解决向量的整个这个这种,呃,这个叫非结构化时代的啊,我们的这个。数据模式啊,数据格式啊,就是向量数据库来解决的。那么向量数据库的八大发展趋势啊,我们也有一个判断啊,一个是就是并行计算和分布式能力啊,这已经是呃,被印证过很多次了啊,2000年以后,数据库就在走向分布式化。
08:01
啊,原因就是单机的这个承载能力有限,必须通过分布式来去提升它的效能。第二点就是实时处理的这个能力啊,我们很多的大模型训练也罢,或者特征提取的一些能力也罢,特征工程能力也罢,更多的需要实时的这个处理的这样一个啊,实时出结果,实时的更新啊,越实时,我们的知识的反馈和知识的这种简答的能力是越有效的啊,因为数据的处理和知识的反馈都是有时效性的。数据是有时效性的,它的价值随着时间的这个流逝会降低的啊,所以越实时能力越强啊,第三个就是支持我们的高级别的一些查询的一些功能,第四个就是面向它的性能,我们需要耦合一些硬件的能力,做硬件的加速啊。第三第五个就是不同类型大模型的这种性能的优化啊,因为向量数据库可能背后会接各种各样的这个大模型啊,上百个啊,我们现刚才讲了,中国现在有可能有上百个大模型,怎么对接不同的大模型做性能的一调优,还有多模数据的一个处理。
09:09
第七个就是我们的通用性和应用性,一个软件诞生的时候,它的整个的它解决了一定的能力问题啊,当当然它一定是不完善的,它的应用性和通用性是相对比较差的啊,所以要成为成熟的软件产品,需要解决这些问题啊,还有就是我们的整个大模型的深度融合的一些问题啊,这是八个技术趋势。那么关于标准,刚才魏所也讲到了,标准化是非常关键的,在一个产业初期发展初期啊,防范我们的技术走偏啊,防范我们在整个领域里面,大家能够有同样的语言,同样的认识啊防呃这个帮助用户去认识。向量数据库啊,而不是大家这个各自有自己的一套啊解法,一套一套说辞,所以标准的意义非常重要,就统一认识,统一共识。
10:01
啊,在这个在这个背景下啊,我们面向这么多向量数据库啊,联合腾讯,联合很多的这个向量数据库厂商一起定义了。啊,向量数据库标准啊,这是第一个功能领域的一个标准,大概有七个能力,47个能力域。啊,其中可选和必选分别有一定的这个这个模块啊,可以打开看我们整个是。七个模块里面有通用的一些能力啊,我们看到有一些这个跟向量直接有关的一些啊,精精确的,然后模糊的这些查询的一些能力啊,还有安全性的一些能力啊,高可用的一些能力啊,还有一些这个呃,整个兼容性,扩展性啊和工具生态的这些能力啊,这对大家去选择一款这个向量数据库至关重要啊,这个标准是我们啊,通过三个多月啊五六次的研讨会啊,完完成的啊。
11:00
那么腾讯呢,也参也首批参与了我们整个向量数据库的测试啊,然后也通过了我们全部的必测的P测的项目啊,同时啊,还不解渴还这个委托我们做了一个性能的一个测试啊,我们发现他在整个支持千亿级别的数据规模方面啊,在线的这种红读读红写场景方面啊,有一个较高的一个啊。QPSQPS值啊,这个性能还是比较好的啊,说明还是做了很长时间的这个积累和沉淀的啊,确实在自己的这个生产环境里面有大量的使用啊,整体的性能还是不错的。那么我们接下来围绕向量数据库啊,因为它这个很重要啊,还不仅仅是呃出一个功能就解渴的啊,整个性能我们将联合腾讯我们这一系列的厂商会呃深化的去做向量数据库性能的测试的benchmark啊技术测试的工具,另外就是稳定性方面啊,它的整个的呃这个呃,我们觉得这个数据库的稳定性非常重要啊,它性能是一方面啊,它能不能持久的坚持啊,它的整个的高可用的水平怎么样,所以稳定性这块也是一个很重要的方向啊,还有就是面向数向料数据库的,面向不同场景的这种优化调用能力啊,叫我们这行业的解决方案方面做一些标准方面的一些规划啊,这是我们在标准方面的啊,做出的一些引领和一些呃,这个引导啊,希望大家在这个通过标准来去更好的认识向量数据库,选择向量数据库。
12:34
那么我今天分享就这么多啊,谢谢大家。
我来说两句