首页
学习
活动
专区
圈层
工具
发布

OpenAI发布开源评测CoT-Control,用于衡量模型思维链可控性

AIPress.com.cn报道

随着AI智能体越来越能自主完成复杂任务,如何有效监督其行为成为关键议题。OpenAI最新研究聚焦一种潜在风险:当模型知道自己的推理过程会被监控时,是否可能刻意改写或遮掩思维链,从而让监控失效、评估结果被高估。

OpenAI表示,思维链监控是其多层安全体系的一部分,可通过分析模型推理步骤来识别不安全行为或偏离用户意图的迹象。为验证“思维链是否会被刻意操控”,OpenAI提出并开源了评测套件CoT-Control,包含超过1.3万道任务,来自GPQA、MMLU-Pro、HLE等多个基准,用于测试模型能否在解题时遵守针对思维链的限制指令,比如避免特定关键词、只用小写字母或按要求追加特定词语。

研究对13个推理模型进行评测后发现,当前前沿模型普遍难以稳定控制自己的思维链,可控性得分整体很低,最低约0.1%,最高也未超过15.4%。研究还指出,模型规模更大时可控性略有提升,但当推理更长或经历更多后训练时,可控性反而下降。即使告知模型“正在被监控或评测”,可控性也只是小幅上升。

OpenAI认为,这一结果意味着在当前阶段,模型还不太具备通过操控思维链来逃避监控的能力,因而思维链监控短期内仍具参考价值。但公司也强调需持续跟踪,未来将把思维链可控性与可监控性一起纳入前沿模型的系统卡披露指标,以便及时发现趋势变化。

(AI普瑞斯编译)

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Ob29277NIiI6wPUPu6LCL6Sg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

领券