00:00
非常开心又能回到腾讯的这个主场,因为呃,过去的18年我都在搜狗啊,腾讯是搜狗的第一大股东,且在二一年我们一起并进了腾讯啊,我也在腾讯工作过一段时间,只是今年呃,这个大模型浪潮来了,所以我们从以小川为带啊,就带队我们几个老收狗人又在一起啊,开始做百川大模型,所以今天的主题呢,是在AG时代啊,大模型结合向量数据库去打造超级应用。这张图已经很久了,大家觉得可能这张图有点老,怎么还在普及这个知识,但为什么要把这张图做一个开始,是因为小马哥的这句话,他说,呃,这次其实是类似发明电的一样机遇。为什么会这么说?当电刚发明的时候,其实很多人不知道电能干什么,一直到爱迪生在他们家门口的那条街上啊,当年的就现在的通用电器了,开始弄了一一排路灯,大家哦,电是可以比啊,这个油灯比蜡烛要更亮更持久的,但是如果再过100多年啊,200年回来看,100多年吧,过来看会发现电能起到的作用,电能产生的应用,电能产生的整个社会的变革的机会,远远不是当时仅仅是替代蜡烛和油灯的状态,所以通用人工智能可能也是这样的机会,这也是小马哥的预言放在这里,这也是为什么今天的主题,为什么百川特别期待跟腾讯云向量数据库一起能够帮在。
01:32
做的各位,无论是企业组还是开发者,我们一起不断探索,不断的去创造可能的应用,去改,逐渐逐渐的改变我们所处的这样的一个生产关系,所谓的生产力革命。好吧,这就是为什么把这张图放在前面,OK,那下面简单介绍一下百川,我们这帮人很老啊,但公司很新,我们今年4月10号才真正成立啊,到今天也就才正好七个月,七个月多一点点的时间。
02:00
啊,那么但这七个月的时间呢,确实是叫人工智能一天啊,人人间一年啊不,人间一天人工智能一年的感觉,我们七个月时间呢,我们发布的版本,从开源版本来说,我们六月份6月15号是7B的百川一的7B开源啊,7月11号百川呃,百川一的13B开源啊到七月呃,到8月8号我们53B B源第一次发啊,结果到9月6号呢,我们又发了百川二的7B和13B的开源,呃,同时在这中间8月8号百川仅仅成立四个月的时间的时候,呃呃,应该8月31号,我们四个多月时间的时候,百川就成为首批通过网信办备案的啊公司之一啊,八家公司之一啊,同时在9月25号,我们发布了百川二的53B。这个时候我们还发布了一个内测,呃,也就是呃百川,哦不抱歉,是十月,呃10月20号,呃十月底我们发布了呃192K是当时,呃,我不敢说一定是现在啊,因为行业确实很卷,但至少是当时是全世界最长的窗口,35万字的文本可以汉字文本可以直接啊一口气输入进去,嗯。
03:17
那么未后来,未来我们很快还将,呃,在这个月底或者下个月初,我们会发布一些新的产品,在年底我们最真正意义上啊,我们敢出来说真正意义上追平,呃,Gpt3.5的模型,以及明年的超级应用,我们都期待啊,我们都有,相信我们会逐渐发布。嗯,那么这些呢,是我们的一些能力方面的介绍,不多说,因为实话说行业内刷分很多,我觉得说多了也没有没有意义,在座各位都行业的人,我们只看右边,呃,左边对于大家来说是右边,我们在呃开源这个模型的实际下载量上啊,我们哈根face首周的下载量就过百万,我们现在累计的下载量已经超过600多万这样的一个数字,嗯。
04:06
那么呃在呃九呃九月底我们发的百川253B来说,大家可以看到相应的DEMO啊,我们确实是通过了数据体系,特别是搜索增强的技术啊,能够极大程度降低了模型的幻觉问题,客观准确率达到85%啊,客观问题准确率应该是当时属于国内最啊最好的一个水平,嗯。那么在上个月底我们发布的解决,呃,这个百川二的192K啊这块呢,给大家做个简单的DEMO演示,我们一次性输入35万字的一个情况,诶抱歉,这个这个按呃演示是哪个键。嗯,帮我演示一下,谢谢。就没有声音啊,我们选了一个三体。啊。一次性把三体第一步的PDF直接输入大模型。
05:03
那我们开始问的问题,字可能有点小啊,这张问的问题,第一个问题其实问的是汪淼倒计时第36张图片上的数字是多少?嗯,啊,第二个问的是,诶,他用的相机型号是什么?啊。第三个他问的问题是,他跟大使一起喝了几次酒啊?也就是说,当转呃把一个呃这么长的一个小说直接一次性拽入到这个大模型中以后,呃相应来说,我们回答的相应的问题啊,就可以一次性生成啊,且相且非常的准确。嗯,最关键不是长,最关键要准确对吧,嗯。OK,呃,所以基于这些情况来说,呃,我们大模型有相应的这样的一些优势,是说核心的第一点,我们原来做搜索的,有搜索的积累,我们在搜索增强这件事情上非常的有经验啊,其次啊,我们安全合规这一点对于开发者,尤其国内开发者来说也是极其重要的一件事情,一会后面会做一些详细的展开探讨啊,行,这块不多说啊。
06:13
嗯,啊,那么首先我很多人都说,为什么百川能在短短的几个月时间内就能够做到一个相对呃比较优秀的一个国产模型啊,这里面我们第一条我们会说,因为我们做搜索的十几年的经验,我们认为整合了搜索增强大模型加搜索才是一次,我才是一个完整的技术战,这张路线图应该是小川在七月份吧,我不记不清了,因为这个对于大模型行业来说,两个月的时间,感觉都几年前的事了啊,就说好像大家在一次集合公园上的演讲的时候,展示过这张技术路线图,呃,我如果有有看过的同学应该能知道,也就是说呃,我们整个一个快,呃一个输入快,视频进来以后,我们会用前面一个动态模型把它给拆解,变成合理的这样的一个query词,然后同时对网页和对知识库做双层结。
07:13
然后做搜索结果的这样的一个金牌啊,然后再反向缩回到模型里面去,这样的话能够真正意义上去解决说啊,也就是说通过我们这些搜索,呃,搜索的经验,我们能够。就是搜索的能力,我们能补齐大模型的短板啊,包括幻觉问题,时效性问题和安全性问题,这是都要通过搜索增强帧来解决,补齐大模型短板的同时,通过搜索的这样的一个经验,我们是能够帮大模型做优化,无论是在数据增强、算法调优和算力构件上,我们都有相应东西,所以这也是为什么百川仅仅几个月的时间,我们基于过去搜索的技术,加上对语言模型的理解啊。其实这里面插一句话,大家应该大概率用过搜狗输入法对吧,大概在一六年的时候,搜狗输入法发的那个版本啊,就应该是说你输入前面一句话,后面在输入法上会给你推荐下一句话,这其实就是深成是ii的非常早的一个出,只是当时的技术路线不是gpt这种大规模的技术路线,但是当时我们用的应该是boot还是什么,我记不清了啊,其实已经是出行了,这也是我们百川的这样的一个历史根基,历史底蕴吧。
08:28
嗯,那这块呢,为什么在这里面特意展示,是因为在国内做应用啊,安价值观是一定要正确的啊啊那这块的话,相对来说,我们在这块过去十几年做搜索,做输入法,做我们的信息流的相应的经验,在这现在阶段都赋予了我们的模型能力啊,只有做过超级TOC应用的公司,做安全这一块才能够相对来说有保障,这是很实际的一句话啊呃,相信尤其在腾讯这个跟腾讯同学在一起的时候,这块的感触就会更深啊,所以我们相对来说,呃呃,就在这这边吧,啊,我们通过预训练的数据增强,然后再加上相应的安全微调啊,同时在上面还有相应的红蓝对抗啊,红蓝对抗,最后安全强化学习,最后用这套方式,呃,也是能够在说为什么百川仅仅四个月,当网信办第一批备案最严的时候,我们。
09:29
都能OK啊,这是有有相应的这样的一个经验在吧,嗯。嗯嗯,这张图呢,其实就是自己也在在给百川相当于做个小广告啊,也就是说我们能够有,因为有全在的技术能力,无论刚才说的搜索,无论刚才说的安全还是模,呃,所以加上我们相应的这样的一些呃,团队的这样的一个努力吧,呃,我们能做模型更快更好,分成几个方面来看啊,无论是大模型的语言训练,评价,迭代啊,这条线上我们的经验啊,其实非常的丰富啊,然后呢,数据的清洗差大规模的数据清洗,过去我们做搜索的时候,是要从千亿甚至万亿的网页里面,真正意义上要把那些垃圾的数据要给刨掉啊,要真正抽取中间最优秀的,呃,几十亿到100亿的网页去做相应的排序,相应的整合啊,才能够真正意义上把这个搜索结果做好,这是当时的经验啊,那现在其实也复制到了我们的呃,这个大模型体系里面来,那同时在工程层面可以说,呃。
10:35
呃,这个叫怎么说呢?呃,我们其实当年做搜索,做搜法的时候,尤其做搜索的时候,其实我们就已经有万卡级别的算力啊,这块呢,其实能动懂万卡级别算力平衡的这件事,其实看似是一个工程,其实中间的技术难度并不小啊,这点如果做过工程的同学,尤其做过应用的超级应用的同学肯定会深有感触,嗯,行,其他就不多说了,OK,那么但既然说了,回归主题。
11:05
我们做模型的目的是什么?既然是发明电的机会,最后我们,呃,当然了,卖电视可能商业公司会想产生的是最关键的是让全世界的人,全社会的人能够基于电做出相应的工业革命,做出相应的新的产品啊,不仅仅是一个电灯超过煤油啊,煤油灯的这样的一个事情啊,所以基于这个的话啊,我们会真正啊去构建我们的平台服务啊,当然了这一点在下一页,下一页我们会来说,我们跟腾讯云向量数据库一起啊,一起集中来构建,能够让在座的无论是企业组还是开发者都能够在应用层面越来越好啊,越来越容易做,能低门槛的尝试,能高效的尝试,能做出来的能力,应用的能力更强啊,所以我们最下面的底座肯定是我们的几座模型版本,我们会不断越来越推出我们将来更强更更好啊,甚至叫性能更好,成本更低的模型版本。
12:06
啊,包括在在这个通用模型之外,我们还会有单独的强化能力,以及垂类的,像我们娱乐版呐,角色扮演等等这些版本我们都可以放到我们的这个模型的底座里面去,然后在这之上我们推出的平台服务,包括API的平台,微调训练的平台,企业知识库的平台,企业知识库这块平台其实就是与呃,罗总呃,咱们腾讯云向量数据库这边一起来集中合作,这样的话能在腾讯云这个大平台上为在座各位提供更好的服务。然后在网上我们期待于在座各位一起成为行业合作伙伴,共同研发呃,我们举例的这些应用,以及更关键是在这个举例应用之外,可能更多百倍多、千倍多万倍的一些应用,这是我们所期待的事情,也是站在这里跟大家啊,得不得两句的事情好吧。OK,那这块其实就是一会肯定罗总也会上来,我们一起来说我们真正做发布的,我们与呃百川大模型与腾讯向量数据库,腾讯云向量数据库一起联合做的事情啊,上面我们通跟腾讯云的向量数据库一起做好企业知识文档的上传,或者说可能在座各位不一定企业知识可能是行业知识或者其他相应专属数据的这样的一个上传啊,通过对他的结构化啊切片,然后最后到曼啊,不是最后到一面到em班,到承认整的数据库就是在上传这条体系啊,那么在整个提问啊,优化这个体系,就是下面这条线,这刚才罗总已经在做了相应介绍,不多多呃,不多多说,也期待呃在今天的发布之后,在座各位合作伙伴能多在这个我们腾讯云上使用试用我们的产品啊,更关键是欢迎提供反馈意见,我们不断的优化,像估计我们这未来每周我们跟向亮呃,腾讯云。
13:58
向量输出一起都可能有些小版本的这种update啊,甚至可能按照大模型的这个行业习惯的话,大概率啊,呃,半个月左右可能我们都会更新一些东西啊,也所以大家应该持续保持关注啊,而不是仅仅开场去看一下那个,不不仅仅开始这头两天去看一下。
14:17
OK,呃,这块呢,也不用多说了,其实跟都是基于刚才那个我们那个整个平台服务,尤其于与向量数据库一起做的平台服务,这些事情啊,不多的介绍,大家可以到腾讯云的官网,腾讯云的专属页面去做详细的解读啊。所以我们核心的逻辑都是一点,我们做好大模型,我们与向量数据库一起能为大家提供好电的服务,然后与大家一起共建在电力革命时代,新的电力革命时代,我们就用小马哥所说,在新的电力革命时代,我们到底能做什么啊,绝对不仅仅是电灯,绝对不仅仅是一个,好像说大家现在东西的一个啊,变形更多很有可能是新的,我们现在想象不到的啊,一些应用出现,就就如100多年前想象不到电脑,想象不到电车是一个道理。好吧,这非常期待,所以最后我在这里边说一下我们百川的使命,我们确实百川的使命就是帮助大家,呃,大众能够轻松普惠的获取世界知识和服务来这里面后面还跟一句话,就是能够让大家充分用好大模型,能够创造自己的超级应用,好吧,谢谢大家。
我来说两句