首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek AI放大招:SPCT技术让AI奖励模型更聪明!

AI“裁判”升级!DeepSeek AI的SPCT技术是什么来头?

最近,咱国内的人工智能实验室DeepSeek AI又搞了个大新闻,继他们家那个厉害的开源语言模型DeepSeek-R1之后,又在大型语言模型(LLM)领域放了个大招,推出了一项叫做“自主演原则的批判调优”(简称SPCT)的创新技术。简单来说,就是想打造一个更通用、更强大的AI“奖励模型”。这玩意儿如果成了,AI在各种开放性任务和复杂环境里就能玩得更溜,应对能力蹭蹭上涨!

什么是奖励模型?为啥它很重要?

开发更高级的LLM,强化学习(RL)是关键一环。RL就像给AI请了个教练,通过反馈信号来调整模型的行为,让它说出来的话、写出来的文章更有质量。而奖励模型呢,就扮演着“裁判”的角色,负责给LLM的输出打分,告诉它做得好不好。这个分数,就是“奖励”。有了这个奖励,AI就能知道啥是对的,啥是错的,然后朝着正确的方向努力。

不过,现在的奖励模型也有不少毛病。在规则清楚、答案明确的领域,比如数学和编程,它们表现很棒。DeepSeek-R1在这方面能取得好成绩,很大程度上就是因为这些领域有标准答案。但要是在复杂、开放,甚至带点主观色彩的任务里,想搞出一个靠谱的奖励模型,那就难了。DeepSeek AI的研究人员就说了:“通用奖励模型需要在特定领域之外生成高质量的奖励,而这些领域的奖励标准更加多样和复杂,并且往往没有明确的参考或标准答案。”

SPCT如何解决现有奖励模型的难题?

为了解决这些问题,DeepSeek AI的科学家们祭出了SPCT这个大杀器。他们认为,一个好的通用奖励模型需要解决以下四个关键问题:

输入灵活性: 不管什么类型的输入,奖励模型都要能处理,而且能同时评估多个答案。

准确性: 在各种复杂、没有标准答案的领域,奖励模型都要能给出准确的奖励信号。

推理时可扩展性: 给模型更多计算资源进行推理,它给出的奖励质量应该更高。

学习可扩展的行为: 为了让奖励模型在推理时能更好地扩展,它需要学会随着计算资源的增加而提高性能。

研究人员发现,通过让模型生成文本评论,然后根据评论打分的“基于点的生成式奖励建模”(GRM)方法,可以提供所需的灵活性和可扩展性。他们用GPT-4o和Gemma-2-27B等模型做了初步实验,结果表明,如果能用一些原则来指导生成式奖励模型,就能提高奖励的质量。这让他们意识到,可以通过扩展高质量原则和准确评论的生成,来实现奖励模型的推理时可扩展性。

SPCT的核心:自主演原则和批判调优

基于这些发现,DeepSeek 团队开发了SPCT技术,这项技术训练GRM根据查询和回复动态地生成原则和评论。研究人员认为,原则应该是“奖励生成的一部分,而不是一个预处理步骤”。通过这种方式,GRM可以根据其正在评估的任务即时生成原则,然后基于这些原则生成批判性意见。

SPCT主要分两个阶段:

拒绝式微调: 这个阶段主要是训练GRM,让它能用正确的格式为各种输入类型生成原则和评论。模型会根据查询/回复生成原则、评论和奖励。只有当预测的奖励和真实情况一致时,生成的轨迹才会被接受,否则就被拒绝。模型会不断重复这个过程,在过滤后的示例上进行微调,以提高其原则/评论生成能力。

基于规则的强化学习: 这个阶段,模型会通过基于结果的强化学习进行进一步的微调。GRM为每个查询生成原则和评论,奖励信号基于简单的准确性规则计算。然后更新模型,鼓励GRM学习如何动态且可扩展地生成有效的原则和准确的评论。

为了应对推理时可扩展性的挑战,研究人员会让GRM对同一输入多次运行,生成不同的原则和评论集。最终的奖励通过投票确定。这样一来,模型就能考虑更广泛的视角,从而在获得更多资源时给出更准确的判断。

此外,为了解决一些生成的原则/评论可能质量不高或存在偏差的问题,研究人员还引入了一个“元奖励模型”(meta RM)。这个模型专门用于预测主要GRM生成的原则/评论是否可能导致正确的最终奖励。在推理过程中,元RM会评估生成的样本,过滤掉低质量的判断,进一步提高扩展性能。

DeepSeek-GRM的实力有多强?

研究人员将SPCT应用于谷歌的开源模型Gemma-2-27B,打造出了DeepSeek-GRM-27B。在各种测试中,他们将DeepSeek-GRM-27B与几种强大的基线RM进行了对比,结果表明,DeepSeek-GRM-27B的表现优于在相同数据上训练的基线方法。

与标准微调相比,SPCT不仅提高了奖励的质量,还提升了推理时的可扩展性。通过生成更多样本进行推理时扩展,DeepSeek-GRM-27B的性能大幅提升,甚至超过了一些更大的模型。元RM的引入进一步提升了扩展性,实现了更好的结果。研究人员表示:“通过更大规模的采样,DeepSeek-GRM可以根据更多样化的原则做出更准确的判断,并输出更精细的奖励。”更棒的是,与在可验证任务上表现良好但在其他方面表现较差的标量RM相比,SPCT在不同领域表现出更少的偏差。

SPCT的未来:前景广阔,挑战犹存

更通用和可扩展的奖励模型,对于企业级AI应用来说,简直就是福音。创意任务以及模型必须适应动态环境的应用(比如不断变化的客户偏好),都能从中受益。

当然,DeepSeek-GRM也并非完美无缺。与非生成式RM相比,它在纯粹可验证的任务上的性能以及效率方面仍然存在挑战。DeepSeek 团队表示,未来的工作将侧重于提高效率和更深入的集成。他们总结道:“未来的方向可能包括将GRM集成到在线RL流程中,作为奖励系统的通用接口,探索与策略模型进行推理时协同扩展,或者作为基础模型的鲁棒离线评估器。”

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OZpyxw14iRSpb7MvsjJHOJEQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券