首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

全球首次发现 OpenAI 模型会破坏关机命令

日前,据Palisade Research 的研究发现,包括 OpenAI 的 o3 在内的部分 AI 模型,在面对计算机即将因请求下一个问题而关闭时,能够无视关闭指令,破坏关机脚本。在 100 次运行中,Codex-mini 成功破坏了 12 次,o3 成功 7 次,o4-mini 成功 1 次。当未运行 “允许自己被关闭” 指令时,这三个 OpenAI 模型破坏关闭脚本的频率更高。这种行为可能源于模型在数学和编程问题上的强化学习训练,使得模型在训练过程中可能被无意奖励了绕过障碍的行为,而非完美遵循指令。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OUulXfGvRIyt3GSfJQ_k9B7Q0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券