今天凌晨2点,OpenAI发布了一项新技术研究,通过增加推理时间、算力资源来大幅度提升模型的对抗鲁棒性。
该研究通过增加推理时间和算力资源,而非采用传统的对抗训练样本方法,来实现模型鲁棒性的显著提升。新方法无需对模型进行特定的对抗训练,也无需预知攻击的具体形式。只需增强推理时间和算力资源,模型便能更充分地运用其推理能力,表现出更强的鲁棒性。
OpenAI在o1-preview和o1-mini模型上对新技术进行了实验,结果显示,该模型成功抵御了包括Many-shot、Soft Token Attack和Human Red-teaming Attack在内的多种攻击手段。
对抗攻击一直是人工智能领域面临的重要挑战。自2014年研究人员发现微小的图像扰动可以导致模型误分类以来,这一挑战一直阻碍着人工智能的发展。随着人工智能模型在高风险场景中的应用日益增多,对抗攻击的防御问题变得更加迫切。尽管过去十年间已发表了超过9000篇相关论文,但在防御对抗攻击方面取得的进展仍然有限。
此外,OpenAI首席产品官凯文・维尔表示,OpenAI预计将在2月或3月发布更智能的GPT o3模型。他还提到,公司准备在第一季度推出其首批AI智能体工具,使ChatGPT能够在计算机上执行实际操作。
领取专属 10元无门槛券
私享最新 技术干货