文章/答案/技术大牛

发布

DeepSeek联手清华让AI“自我批评”：更大不如更聪明

文章来源：企鹅号 - 北茗的AI笔记

在大模型越做越大的今天，另一个问题正悄然浮现：模型越大，推理成本越高，表现却未必更加稳定。尤其是在处理开放性、复杂性任务时，模型缺乏清晰判断标准，反馈机制过于单一，这个问题正成为AI发展的瓶颈。

而最近，清华大学与DeepSeek联合提出了一种新的解决路径：自我原则点评调优（Self-Principled Critique Tuning，简称SPCT）。

这项技术的出发点很明确——不是再去“堆数据”“堆算力”，而是让AI在生成答案的同时，也生成判断标准，并以此标准自行评估答案是否合理。换句话说，让模型在推理阶段拥有“自我校对”的能力，而不再完全依赖训练阶段的人类反馈。

论文网址：

https://arxiv.org/abs/2504.02495

模型训练需要“裁判”

传统AI的训练逻辑其实很直给：想让它变聪明？那就堆数据、堆参数、堆算力、堆反馈，一层一层往上怼。

但现实中，很多复杂问题根本没有标准答案，比如“什么是好文案？”“哪个答案更合适？”等等。

于是，模型开始需要“奖励模型”（Reward Models, RMs），作为那位站在一边打分的“裁判”。

可现在的裁判，多半还只会在简单问题上判个输赢。一旦遇到模糊的情绪、主观的偏好、多样的场景，就会立刻懵圈。

“拒绝学习+规则微调”，练拳又练心

为了训练出这个“能思考的裁判”，DeepSeek设计了两个关键步骤：

第一阶段：拒绝式微调（Rejective Fine-Tuning）

模型要先学习怎么写出合格的评价。如果输出的批判逻辑混乱、结论偏颇，统统拒绝采纳、拒绝学习。只有那些判断跟“真实好答案”一致的案例，才会被保留下来喂给模型。

这个阶段就像模型训练数据的“审稿人”，取其精华，弃其糟粕。

第二阶段：基于规则的强化学习（Rule-based RL）

接下来就是实际应用：给模型一个问题，它自己写评价规则、自己写点评，然后再根据事先设定的简单规则（比如“有没有选对答案？”）来打分。

这个过程像是在反复教会AI：“原则不是拿来背的，是要你用来审判世界的。”

小小身体大大能量

这个过程最大的魅力在于三个字 —— “扩展性”。

DeepSeek在实验中发现，哪怕只用Gemma-2-27B这样的小模型作为基础，通过SPCT微调后生成的DeepSeek-GRM-27B模型，居然能在多项推理测试中吊打比它大十几倍的对手。

比如：

超过GPT-4o、Nemotron-4-340B-Reward

在32次采样下，性能追平甚至超越671B级别模型

延迟仅1.4秒，但训练成本比GPT-4o少了99%

在多个主观领域上表现更稳、偏见更少

一个270亿参数的模型，靠着自我批评，可以以小博大。

而且，在可解释性上也更好：不仅能知道模型给出多少分，还能知道为什么打这个分。

走出科研，进入现实

这个技术不仅是学术炫技，它对实际产业也充满想象力：

在客服系统中，它可以根据不同场景、客户情绪，实时调整服务语言风格。

在金融、医疗等高风险领域，它可以生成结构清晰、逻辑自洽的判断报告，并提供“依据链条”。

在创意内容生成中，它可以判断创意是否“情绪到位”“节奏自然”，甚至可以辅助剪辑、编剧。

更重要的是，它极大地降低了门槛。DeepSeek测试显示：SPCT训练所需人工标注减少90%，能耗减少73%。

更大不如更聪明

SPCT带来了一种范式的转变。

SPCT所代表的，是一种全新的思维方式：不再靠堆资源去压倒对手，而是靠结构设计去理解复杂、适应多样。

未来，这项技术可能成为大模型推理的标配技术，也可能成为判断内容“是否合格”的强大裁判，甚至成为企业部署AI时的必备中枢。

DeepSeek团队表示，这项技术将开放开源。

而他们的下一代R2模型，也有可能在不久后正式登场。

发表于: 2025-04-092025-04-09 17:13:00
原文链接：https://page.om.qq.com/page/OtYJIKKquLzHvpuBB-qTZDhg0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

DeepSeek联手清华让AI“自我批评”：更大不如更聪明

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐