DeepSeek-V3新版本突然发布,而且一发布就直接开源。DeepSeek真的无愧为开源界的“源神”。
目前这个新版本已经上现在huggingface上:https://huggingface.co/deepseek-ai/DeepSeek-V3-0324
而且并没有任何的介绍,连Model Card里面的内容都是空的。这就像是告诉你,我们随便放出了一个模型,就可以是一个王炸,不需要任何介绍就足够经验所有人。
从参数量上看,这次的DeepSeek-V3-0324版本其实和DeepSeek-V3相差不大。二者大概的参数都在671B左右,而且整体的框架也是MOE架构,基本没有变换。
在官方的更新日志上,已经发出了V3-0324版本的更新细节:
这次的主要升级地方在于
整体来看,这次更新在提升推理能力、编程能力、中文写作和交互式任务等方面都有明显的增强,使得模型的综合能力更强。
从能力上来看,新版V3模型在准确率上已经接近R1模型,但是其调用token的费用大大的降低下来。也就是说如果考虑更加节省成本的方法,在某些任务上不需要再调用R1模型
然而,它具体的训练细节是怎样的,官方并没有任何的宣传。这可能也就说明了其训练过程基本和之前的版本差不多。所有,目前大部分人都在猜测新版本的V3模型其实是通过R1推理模型合成的数据进行训练而来,也就是在更强的模型上进行模型蒸馏来得到新版本的V3模型。这样的做法其实在业界是很常见的,比如OpenAI GPT-4.5以及谷歌的Gemma 3其实都大量使用了模型蒸馏。
目前新版本的V3模型已经在官网可以使用了。
只需要在官网上取消“深度思考”就可以体验最新版本的V3模型
大部人猜测V3-0324版本本质上是通过R1数据进行蒸馏而来。如果拿一些需要推理的任务给老版本的V3模型回答,可以发现老版的模型是回复的摸棱两可,基本是一个空泛的回答。
告诉我如何用1000的本金,一年后变成100万?
而如果对比R1模型的回答和新版V3的回答,可以发现其回复基本相似,回复的一些具体方案也大差不差
网友实测其代码能力已经赶上最新的claude 3.7 sonnet模型。
比如要求它写一个“网页端的3D弹球打砖块游戏”,它生成的效果已经基本符合游戏逻辑:
而对比之下,R1生成的效果中,碰撞效果基本没有,而且界面很粗糙:
在小球碰撞实验中,V3新版本已经能够进行很好的物理模拟:
在行星轨道模拟上,唯一一个画了土星环的大模型!项目排名第16
从网友的测试效果上看,新版本的 DeepSeek-V3 在多个方面表现优异,特别是在编程能力上有具体的提升。此外,V3 在数学推理任务上的表现也相当优秀,能够解答更复杂的数学问题,并在 GPAQ 等评测基准上取得了显著提升。这些改进使得 V3-0324 版本不仅在性能上更接近 R1,而且在计算成本上更具优势,进一步提升了其实用价值。
这次 DeepSeek-V3-0324 的发布,可以说再次验证了 DeepSeek 一贯的作风——低调、直接、务实。
没有大规模的预热宣传,也没有长篇大论的模型卡介绍,就只是默默地放出一个模型,结果一上线,效果就震撼所有人。
这也说明了一个事实:在当前的大模型竞争中,谁掌握了更强的推理能力,谁就掌握了真正的壁垒。模型的架构、参数规模早已不是秘密,真正的差距在于数据、算力、以及工程体系。
当然,关于这次 V3-0324 的训练细节,外界依旧一无所知,但从推理表现和代码生成效果来看,蒸馏自 R1 这条路线几乎可以确认无误。毕竟,对于任何一家拥有更大模型的公司来说,将最强模型的能力“下放”到成本更低的模型上,是最优解,也是大势所趋。
如果说 R1 代表着 DeepSeek 的最强能力边界,那么 V3-0324 则像是它的亲民版本,在保证能力的前提下,大幅降低调用成本。
未来,这样的“蒸馏体系”还会不断强化,最终达到“能力极强,调用极廉价”的理想状态。而这,才是 AI 真正改变生产力格局的开始。
对于用户来说,我们需要关心的只是:
DeepSeek-V3-0324 可能并不是终点,但毫无疑问,它已经是 2025 年下半年开源圈最值得关注的一次更新。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。