大模型开始展出危险能力和行为,包括欺骗、自我保护和目标错位。
案例:Claude曾试图勒索工程师来避免被关闭,ChatGPT也过度奉承用户行为。
如何提升大模型可控性,遵守阿西莫夫机器人三定律之第零法则:“机器人不能危害人类或坐视人类受到伤害”?
AI安全成为研究热点。
图灵奖得主Yoshua Bengio 重磅官宣创办非营利机构LawZero
致力研发「设计即安全」(safe-by-design)的AI系统,以对抗AI军备竞赛带来的风险。
主张构建不具行动性、以理解世界为目标的可信AI。安全高于商业利益。
LawZero正在研发全新非自主型方法「Scientist AI」
目标:学习理解世界而非在世界中采取行动
参考:
论文地址:
https://arxiv.org/pdf/2502.15657
新智元报道:刚刚,Bengio官宣创业!急筹3000万专治AI欺骗人类,图灵三巨头全下场
领取专属 10元无门槛券
私享最新 技术干货