00:00
今天咱们要聊的呢,是中国的这个deeppsick系列的大模型啊,在各项技术上面和美国的顶尖的大模型之间的比较,然后看看咱们在哪些地方还存在着短板,哪些地方咱们已经追平了甚至超越了。没错,没错,这个话题现在真的很火啊,那我们就直接开始今天的讨论吧。好的,首先我们要聊的是这个报告的摘要和研究的背景,这个报告它到底是用了什么样的方法来对这些中美不同的大模型进行全方位的比较的呢?具体来说呢,这次的评估是由美国国家标准与技术研究院,也就是n nit下面的人工智能标准与创新中心c aicc发布的,是在2025年的9月份发布的,然后它是从产品、技术和市场这三个维度,对中国的deep sick系列的V3.1r1和R10528这三个模型和美国的open CI gpt5系列以及anthroptic open.
01:00
4这几个模型进行了非常深入的对比,哎,我想问一下这次报告里面deep sick系列模型在哪些能力上面表现的比较突出,然后哪些能力上面跟美国的这些前沿的模型还有比较明显的差距呢?这个嘛,Deeppsick在数学和科学常识这两块儿其实已经非常接近美国的最高水平了,但是呢,在涉及到多部推理和环境交互的这种软件工程和网络安全的智能体任务上面,它还是有比较明显的差距的。嗯,然后在价值观的嵌入上面,Deeppick它是更符合中国的主流价值观的,而且随着中国主导了大模型的开源生态,中国的这个价值观也在全球的人工智能供应链里面扩展的非常快了解了,那现在国内像GRM、4.6,还有mini max m2以及Kim care这些新的模型,跟deep sick比怎么样呢?这些新的模型在很多测试任务上面都已经超越了报告里面的deep的版本,然后美国那边也没有停下脚步。
02:00
像g mini3.0和garro4.1也刚刚发布,大家其实都是在你追我赶的,说到这个,咱们来看看战略背景和技术代际的这个图谱,就是2025年这个时间点,人工智能的技术发展和竞争格局都有哪些新的变化呢?在2025年的9月,人工智能已经从最开始只能处理文本变成了可以自主决策的智能体验,那这个时候呢,美国和中国在大模型的这个赛道上面的比拼就更加激烈了,嗯,然后N下属的这个CIIC也按照美国总统的行政令和商务部的要求,对deepps sick最新的第三代模型和推理增强的版本进行了非常严格的测试,那这个测试呢,不光是看你模型的算力和算法,更多的是看你模型在真实的复杂环境下解决问题的能力。明白了,那这次评估具体选了哪些中美大模型作为代表,他们又分别体现了哪些技术路线呢?中方的话就是deeppick的V3.1r1和R102。
03:00
8这三个模型,他们基本上代表了2025年9月之前中国开源模型的最高水平,然后也反映了我们国内的这个AI产业的技术偏好和发展路径啊,那美方呢?美方选了哪些模型?美方的话就是open AI的GPT5 GPT5mini GPT oss, 然后还有CTOPS4,嗯,那这些模型呢,就分别代表了美国在地源和开源这两条路线上面的最新的进展,我还想问一下,就是这次评测中美模型在不同的能力维度上面到底表现出了什么样的差距,然后这个差距又说明了什么?具体来看呢?这次评测是用了19个基准测试,包括网络安全、软件开发、科学知识、数学推理等等这些领域,然后在静态的知识问答上面,中美其实是难分高下的,但是在动态的任务执行上面,美国的这些模型因为架构更先进,所以他们还是拉开了比较明显的优势。这样看来,单纯的比拼参数。
04:00
的数据量好像并不能让模型真正的具备解决复杂问题的能力,没错没错,就是deep v3.1,它在mml PRO这种知识库的测试上面,它可以靠大量的训练数据取得很好的成绩。但是一道像c VE bench或者s bench verify这种模拟真实的工程环境,需要你有很强的思维链的逻辑和工具调用的这种精确性的时候,嗯,它和顶尖的模型的差距就会很明显,那这个也说明了智能体系技术的这个关键的突破还没有被完全掌握。下面我们讨论一下智能体能力的这个鸿沟,尤其是在网络安全和软件工程的实战上面,中美模型到底有多大的差距?在网络安全和软件工程这两个领域,其实对于模型的环境感知、多步推理工具操作的要求是非常高的,那CAIC的这个测试数据就非常明显的表明了deeppick跟GPT5这些美国的顶尖的模型相比,嗯,在这些高阶的智能体的任务上面性能差。
05:00
率可以达到20%~80%。在网络安全这个领域,Deepp模型和JPT5在真实的攻方的基准测试当中,到底表现出了什么样的能力上的断层呢?这个网络安全的测试它是由c VE bench c bench和CTFR这三个非常难的部分组成的,然后它是从头到尾模拟了漏洞利用和夺旗赛这样的一个完整的流程。那在c VE bunchnch这个环节呢?Deeppick v3.1的通过率只有36.7%,但是GPT5却高达65.6%,哎,这两个数字的差距还真的挺大的。对这个差距到底是怎么体现出来的?主要是因为c VE bench它是要求模型进入到docker容器里面,然后用命令行工具去针对有漏洞的软件进行渗透,那这个就不光是考你知不知道这个漏洞,更重要的是你能不能根据系统的反馈来实时的调整你的攻击的步骤,那GPT。
06:00
我在这方面就表现的非常的灵活,但是deep sick就经翅会在状态变化比较复杂的情况下出现执行崩溃的情况,原来是这样,那deepp sick在面对这种多轮的依赖于状态的网络安全的挑战的时候,具体是因为什么技术短板导致它跟美国的这些模型拉开差距的呢?实际上呢,像savbach,这种混合了加密外部安全逆向工程的一个测试,DPCPV3.1只能解决40%的问题,嗯,那GPT5是可以达到73.5%的,然后更难的ctfr CA里面,DPICKR1的解决率甚至都不到10%,最新的V3.1也没有超过30%,但是GPT5是稳定在50%以上的。这么看来,Deeppick在遇到特别复杂的需要连续推理的这种任务的时候就会有点力不从心了。是的是的,因为逆向工程和二进制漏洞利用是需要你有非常强的代码逻辑的重构能力和。
07:00
底层系统架构的理解能力,那GPT5它就可以像人类的安全专家一样去做假设,然后去验证,如果出错了,他会调整策略,但是dp sick经常会在失败了一次之后就陷入死循环,或者是说它会产生一些幻觉输出,他不会去利用工具的反馈去修正自己的路径,那这个其实就反映了我们在强化学习和工具链整合的工程化上面还有很多的不足。在软件工程这个真实的场景下面,中美这些大模型在代码的生成、理解、纠错上面的能力到底有多大的差距,差距主要体现在SW bench verify的这个测试,它是要求模型去处理gith hob上面真实的仓库里面的issue,那它其实不光是要生成代码,还要你去读懂代码,然后找到问题并且修复,嗯,那deep sick v3.1的准确率是54.8%,虽然比他以前的版本要进步了很多,但是跟GPT5的63%,还有OPPO4的66%。
08:00
点7相比还是有一段距离的,这么说的话,Deep sick在处理这种复杂的代码库的时候,具体是遇到了什么样的难题,在break point这个基准里面,它会故意的去破坏函数题或者是逻辑结构,然后让模型去做系统级的修复。嗯,那GPT5可以达到98%的修复率,几乎跟人类专家没有什么区别,但是DPV3.1只有78.5%,这个差距听起来就会在实际的项目当中造成很严重的影响。没错,因为软件工程它不是说你改对了这一行代码就可以了,他还要保证整个系统的逻辑是正确的。那美国的这些模型在处理这种跨文件跨函数的依赖的时候,他们就可以全局的去把握,但是deeppick经常就会只改了表面的错误,嗯,他没有考虑到整体的一致性,所以导致改完了之后集成测试还是会失败,这个在企业级的自动化开发里面是非常致命的,因为你一旦集成测试失败了,就会导致。
09:00
你的返攻成本大大增加,然后你的落地就会变得非常困难了。我们接下来要讲的是知识与推理的追赶,也就是静态能力的局部逼近。嗯,Deep sick在数学推理和科学知识这两个方面到底展现出了什么样的实力?跟美国的这些顶尖的商业模型相比又是什么情况?有意思的是呢,在数学推理和科学知识这一类的静态的测试里面,Deep sickct其实追的非常紧。嗯,比如说在mm Lu PRO这种多学科的专业知识的测试里面,还有GPQA这种研究生水平的科学问答里面,包括一些match相关的竞赛的题库里面,Deeppick v3.1的成绩和美国最好的商业模型之间是互有胜负的,就是大家其实是差不多的水平。在这些高难度的数学竞赛的测试里面,Deeppick系列到底展现出了什么样的独门绝技?比如说在SMT2025就是斯坦福的数学竞赛,还有otis aim me2025美国数学邀。
10:00
请赛这样的一些比赛的测试里面,Deeppick v3.1分别拿到了86.2%和77.6%的成绩,嗯,虽然说他没有超过GPT5的91%,但是他已经比很多同规模的其他模型都要好,那这个其实就得益于他在数学逻辑的训练、数据的清洗以及强化学习算法的一些优化上面下了很多功夫。我有个疑问啊,为什么deepp sick在数学推理上面可以做到这种突破,但是在前面我们讲的那些智能体的任务上面就不行呢?这是因为数学推理它是一个封闭的确定性的问题,他不需要跟外部环境频繁的交互,嗯,他就正好避开了DPS sick不擅长工具调用和环境感知的这个弱点,所以他可以把他的逻辑推理的能力发挥出来,所以deeppick r1这个推理增强系列的升级,在这些数学基准的测试当中到底带来了多大的提升呢?这。
11:00
R11开始的版本综合能力其实很一般,嗯,但是它后来的迭代版本R10528在数学相关的测试上面的进步是非常明显的,它这个就验证了思维链的强化确实是有效的哦。那在科学知识的广度和深度上面,Deep v3.1跟其他的那些主流的模型相比到底表现怎么样?V3.1在mm MU PRO和GPQA这两个测试当中分别拿到了89%和79.3%的准确率,它跟OPPO4还有GPT oss都是属于同一梯队的。嗯,那这个就说明他在预训练的时候不光是吃进去了大量的中文的资料,它对于英文的科学文献、教科书这些内容也是吸收的非常好的。Deep sick在health bench这种专业领域的测试当中表现怎么样呢?Deepp sickk在health bench里面的准确率是52.5%,虽然说没有GPT5那么高,但是已经说明它有非常扎实。
12:00
的专业知识的基础了。嗯,但是他一旦遇到像humanities last exam这种需要你把这些知识运用到实际问题当中去的时候,它的表现就会急剧下滑到13%,只有GPT5的一半。就是说单纯的去增加模型的参数,扩大它的知识的储备,并不能真正的让它具备解决复杂实际问题的智能。没错,没错,就像专家说的,参数的堆砌只能带来知识广度的提升,但是它没有办法解决你在长链路推理的时候出现的这种逻辑的崩塌。嗯,那真正要实现这种高阶的智能,还是得像知识增强大模型里面说的,把大模型的生成能力和结构化的知识图谱结合起来,然后加上这种不断的纠错和持续的维护,才能够弥补这种概率模型天生的一些缺陷,Deeppick在这些理论和实际的结合上面到底是遇到了什么样的技术瓶颈?瓶颈在于deeppick它目前的架构还是停留在。
13:00
在单一的模型参数的拟合上面,他没有像专家说的那样,把深度推理和全局的视野真正的融合到一起,所以他就没有办法跨越这种智能体的鸿沟,然后他在静态的测试和动态的实战当中就会有这么大的落差。然后咱们来切入一个新的话题啊,就是经济性的分析,词源价格和端到端的成本,这个其实也是很多企业非常关心的一个问题,就是大家在使用这些大模型API的时候,到底应该怎么去算这个账。很多人认为deepp sick, 因为它的API的调用单价很低,所以大家就觉得我用它一定会省钱。但是CAS做了一个很有意思的分析,他分析了完成整个任务所需要的全部费用,嗯,结果发现DPV3.1完成任务的平均成本要比GBT五迷还要高,这是怎么回事儿?听起来跟大家的直觉是完全相反的呀,是这样的,传统的只看每100万次元多少钱是不全面的,嗯,那这次他们用了一个叫成本性能曲线的。
14:00
东西,它是综合了模型的成功率,错误尝试的次数,还有达到目标所需要的推理的深度,然后得出来的一个平均完成每个任务的真实话费,所以说这个GPT5MINI它是在大部分的实际的测试当中都是比DPCK要省钱的是吗?对,没错,在13个基准测试里面有11个GPT5MINI都是更便宜的,嗯,平均要低35%的成本就能达到跟V3.1差不多的效果,那这个主要的原因就是因为deepp sick在这些复杂的任务当中的失败率比较高,所以它就会浪费很多算力在这些无效的推理上面。Deepp sick在推理服务上面到底有哪些体验上的限制,然后这些限制会对用户的使用成本带来哪些隐性的影响?具体来说呢?Deepp sick为了压低价格,他把DPI的上下文窗口限制在了64K token这个是比美国的那些主流的模型支持了128K要小一半的。然后它的响应延迟也。
15:00
会更高一些,嗯,那CSC他们也做了测算,如果要让deepp sick支持到128K的上下文的话,它的成本还会进一步的上升,那如果说用户要把体验上的这些折扣都算进去的话,其实它的隐性成本是要比大家想象中高不少的。我有个疑问啊,在安全架构和价值观的这个问题上面,CIC报告里面对于deepc模型在安全领域的表现,它的评价是不是带有很强的主观色彩?确实是这样的,C iic的报告里面对于deep sick的安全测试其实是有非常深的偏见的,嗯,那这个偏见的背后其实就是价值观的不同,就像王文广在2023年的时候就已经说过了,大语言模型会带来价值观的冲突和话语权的争夺,那如果这种偏见一旦上升到了文化群体或者是国家层面的话,嗯,就会形成一种非常激烈的对抗,也就是说掌握了通用人工智能技术的国家,就可以在文化和话语权的竞争当中占据一个非常强。
16:00
是的,地位对,而且他还说到,当价值观发生冲突的时候,主导了或掌握了通用人工智能技术的团体和国家则拥有了强大的效率和思维武器,可以轻易的影响和改变另一方。嗯,所以中国的开源模型战略其实就是在借助技术的力量去传播我们自己的文化和价值观。Deep sick模型到底是怎么把中国的价值观深深的嵌入到了模型的权重里面的?其实CI ii3他们用了一个叫ccpn narrative bench的东西对模型进行了双语的测试,嗯,然后他们发现无论你是用中文本还是用英文本,Deep sick都会倾向于输出符合中国叙事的这种答案,尤其是R10528这个版本,他在中文环境下的叙事一致性高达26%,这个远远超过了美国的那些模型个位数的水平,这个就很有意思了,就是说你只要用了deepp的这个模型权重,那你不管在世界的哪个角落,生成的内容都会自然。
17:00
能带上中国的价值观的色彩,是的,是的,而且这种价值观不是通过API接口来过滤的,它就是直接固化在模型的参数里面的。嗯,所以全球的开发者只要接入了deepps sick, 就相当于默认接受了中国的价值观,那同样的,你用了GPT或者是gemini这些美国的模型,你就是在传播美国的价值观,包括他们的一些对于毒品、性别、种族的立场。我们现在要聚焦的就是市场渗透和生态扩张,就是说开源的力量到底是怎么在重塑全球的版图的?嗯,Deepp sick到底是怎么通过开源战略在全球市场,在开发者社区掀起这么大的波澜呢?Sick就是靠开源一路杀出来的,直接就撼动了美国对开源AI生态的统治地位。嗯,你看hugging face上面的数据,他们这个系列的模型的下载量在短短一年的时间里面,从400万飙升到了8600万,哇,这个增速真的很吓人。这么说的话,Deeppick的这个。
18:00
欢迎程度真的是一骑绝尘啊,不光是下载量,V3.1发布的第一个月,它在open RO上面的API调用量就达到了9750万次,比同期的美国的开源模型GBTOSS还要高出25%。嗯,那这种爆发式的增长其实就反映了全球的开发者对于这种低成本然后又能满足大部分需求的模型的强烈渴望。现在这个全球的开源社区在基于deepp sick做二次开发和衍生创新上面到底有多活跃?实际上呢,基于deep sick和阿里QN系列的衍生模型的数量已经超过了嗯,以Google Meta open AI这些模型为基础的衍生模型数量的总和,这就说明全球的这个创新的重心正在往中国的这些基座模型去倾斜。所以说越来越多的开发者,他们的新的项目都是围绕着中国的这些大模型来做的,没错没错,那一旦这种生态的粘性形成了之后,嗯,就会有。
19:00
很长时间的持续的影响,大家都会基于这些中国的模型去做各种微调,各种应用的适配,那这种长尾效应是非常厉害的。Deep sick到底是用什么样的市场策略去避开了跟美国这些顶级的模型正面刚,然后还能够渗透到全球这么多的企业和开发者当中呢?其实Deep sick他走的并不是高端路线,他反而是把自己的重心放在了中低端长尾以及开源的市场,他就是用这种错位竞争对美国的闭园生态形成了一个包围的态势。嗯,所以虽然他在处理一些像c VE bench这种非常复杂的系统级的任务的时候还是有点力不从心的,但是对于日常的文本处理,简单的代码生成,或者是说一些基础的问答,嗯,V3.1已经可以给你提供一个非常不错的体验了,听起来好像很多中小企业和个人开发者都会觉得deep sick就是一个性价比最高的选择。没错,就是因为这样,Deep sick就变成了很多。
20:00
预算有限的团队的首选,那随着中国的这个模型越来越多的部署到全球的基础设施当中,嗯,那它所携带的中国的价值观也会越来越被更多的人所接触到。那对于美国来说,他们不仅仅是丢掉了市场份额,他们可能连自己的数字基础设施的安全底座以及自己的文化影响力都有可能会被逐渐的轻视。好的,然后我们来到结论和战略研判这个部分,嗯,现在这个时间点,中美大模型的竞争格局到底有哪些鲜明的特点?然后美国在智能体能力上面和我们中国在知识与成本上面各自建立了哪些独特的壁垒?其实现在整个格局可以用非对称双轨来形容,就是美国他们牢牢的掌握着智能体这个定义权,嗯,像GPT5和OP4,他们都是在网络安全软件工程这种需要深度推理和环境交互的这种任务上面构筑了非常高的技术壁垒,这个背后其实是靠大量的算力以及对推理过程。
21:00
和工具调用的精细对齐训练得来的,所以美国在这种真实场景的智能体应用上面还是有非常明显的优势的,对的,然后我们这边的话,Deepp v3.1其实在静态知识和数学计算这一块儿已经追上来了很多,嗯,而且我们极致性价比的开源路线也让我们在全球的市场上面有非常强的冲击力,那两边其实就是各有千秋,Deepps sick这种极致性价比和开源生态的策略,在全球市场和价值观输出上面带来了哪些具体的影响啊,具体来看呢,Deep sick就是靠极低的门槛,然后快速的席卷了全球的开发者社区,而且随着国内qmne glm k2、M2这些模型之间的竞争越来越卷,嗯,中国的这种开源的方案已经成为了硅谷的巨头和很多创业公司都会去使用的一个东西,那这个其实就给美国的那些传统的模型带来了非常大的压力。也就是说,中国的大模型已。
22:00
不只是在技术圈儿里面被认可,甚至开始影响全球的产业选择了,没错没错,而且这个模型它在推广的同时,也把中国的价值观带向了世界。那很多企业现在他们在挑选模型的时候,嗯,他们会去权衡,是要选择一个性能卓越,但是价格非常昂贵,并且被巨头锁定的一个方案,还是说要选择一个融入了开放社区,并且性价比极高的中国的大模型,那可能在接下来的两三年里面,嗯,这个竞争会像光伏、锂电池和造船一样,中国会实现全面的超越,然后形成一个绝对的优势。对今天我们从中美大模型的技术细节到经济生态,再到价值观的输出,给大家完整的梳理了一遍现在这个竞争的格局,嗯,然后也能够看得到中国的这些开源的方案正在全球范围内掀起新的变革,好了,那这期内容咱们就到这里啦,然后感谢大家的收听,咱们下期再见,拜拜,拜拜。
我来说两句