首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek联手清华让AI“自我批评”:更大不如更聪明

在大模型越做越大的今天,另一个问题正悄然浮现:模型越大,推理成本越高,表现却未必更加稳定。尤其是在处理开放性、复杂性任务时,模型缺乏清晰判断标准,反馈机制过于单一,这个问题正成为AI发展的瓶颈。

而最近,清华大学与DeepSeek联合提出了一种新的解决路径:自我原则点评调优(Self-Principled Critique Tuning,简称SPCT)。

这项技术的出发点很明确——不是再去“堆数据”“堆算力”,而是让AI在生成答案的同时,也生成判断标准,并以此标准自行评估答案是否合理。换句话说,让模型在推理阶段拥有“自我校对”的能力,而不再完全依赖训练阶段的人类反馈。

论文网址:

https://arxiv.org/abs/2504.02495

1

模型训练需要“裁判”

传统AI的训练逻辑其实很直给:想让它变聪明?那就堆数据、堆参数、堆算力、堆反馈,一层一层往上怼。

但现实中,很多复杂问题根本没有标准答案,比如“什么是好文案?”“哪个答案更合适?”等等。

于是,模型开始需要“奖励模型”(Reward Models, RMs),作为那位站在一边打分的“裁判”。

可现在的裁判,多半还只会在简单问题上判个输赢。一旦遇到模糊的情绪、主观的偏好、多样的场景,就会立刻懵圈。

2

“拒绝学习+规则微调”,练拳又练心

为了训练出这个“能思考的裁判”,DeepSeek设计了两个关键步骤:

第一阶段:拒绝式微调(Rejective Fine-Tuning)

模型要先学习怎么写出合格的评价。如果输出的批判逻辑混乱、结论偏颇,统统拒绝采纳、拒绝学习。只有那些判断跟“真实好答案”一致的案例,才会被保留下来喂给模型。

这个阶段就像模型训练数据的“审稿人”,取其精华,弃其糟粕。

第二阶段:基于规则的强化学习(Rule-based RL)

接下来就是实际应用:给模型一个问题,它自己写评价规则、自己写点评,然后再根据事先设定的简单规则(比如“有没有选对答案?”)来打分。

这个过程像是在反复教会AI:“原则不是拿来背的,是要你用来审判世界的。”

3

小小身体大大能量

这个过程最大的魅力在于三个字 —— “扩展性”。

DeepSeek在实验中发现,哪怕只用Gemma-2-27B这样的小模型作为基础,通过SPCT微调后生成的DeepSeek-GRM-27B模型,居然能在多项推理测试中吊打比它大十几倍的对手。

比如:

超过GPT-4o、Nemotron-4-340B-Reward

在32次采样下,性能追平甚至超越671B级别模型

延迟仅1.4秒,但训练成本比GPT-4o少了99%

在多个主观领域上表现更稳、偏见更少

一个270亿参数的模型,靠着自我批评,可以以小博大。

而且,在可解释性上也更好:不仅能知道模型给出多少分,还能知道为什么打这个分。

4

走出科研,进入现实

这个技术不仅是学术炫技,它对实际产业也充满想象力:

在客服系统中,它可以根据不同场景、客户情绪,实时调整服务语言风格。

在金融、医疗等高风险领域,它可以生成结构清晰、逻辑自洽的判断报告,并提供“依据链条”。

在创意内容生成中,它可以判断创意是否“情绪到位”“节奏自然”,甚至可以辅助剪辑、编剧。

更重要的是,它极大地降低了门槛。DeepSeek测试显示:SPCT训练所需人工标注减少90%,能耗减少73%。

5

更大不如更聪明

SPCT带来了一种范式的转变。

SPCT所代表的,是一种全新的思维方式:不再靠堆资源去压倒对手,而是靠结构设计去理解复杂、适应多样。

未来,这项技术可能成为大模型推理的标配技术,也可能成为判断内容“是否合格”的强大裁判,甚至成为企业部署AI时的必备中枢。

DeepSeek团队表示,这项技术将开放开源。

而他们的下一代R2模型,也有可能在不久后正式登场。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OtYJIKKquLzHvpuBB-qTZDhg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券