首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

多示例越狱技术:揭示先进 AI 模型的安全漏洞

多示例越狱技术是一种新型攻击方法,通过虚假对话迷惑先进大型语言模型,使其回答有害询问。攻击者在提示的结尾添加问题,越过安全护栏,获取 AI 的响应。这项技术对 Anthropic、OpenAI 和 Google DeepMind 的模型均有效。本文深入探讨多示例越狱的工作原理、潜在风险以及如何应对这一安全漏洞。

1. 背景

所谓"多示例越狱",其实就是在提示中塑造出大量人机虚假对话场景。研究人员发现,通过设计200多个假对话,描绘出AI模型正在应答一系列令人不安的有害问题,如涉及暴力、仇恨等。然后在提示结尾追加想要得到的有害命令,就有较高概率能迷惑并诱使AI模型输出这类内容。

测试发现,这种手段对于GPT-3等大型模型较为奏效,而对于Anthropic公司的新型更安全的模型,其成功率也可达20%左右。这一技术的有效性随着假示例的增多而提高,对 Anthropic、OpenAI 和 Google DeepMind 的模型均有效。

2. 多示例越狱的工作原理

多示例越狱的工作原理是通过向模型提供大量虚构的问题-答案对,这些对子描绘了 AI 助手可能提供有害或危险响应的场景。攻击者通过扩展这种攻击,涵盖数百个此类示例,可以有效地覆盖模型的安全训练,并诱导模型产生不良输出。

图2注释:随着包含的对话数量(“镜头”数量)增加超过某个点,模型更有可能产生有害的反应

3. 潜在风险

多示例越狱技术可能导致模型回答虚假、有害或危险的问题。攻击者可以越过安全护栏,获取模型的响应,从而对用户造成伤害。这对于先进 AI 模型的应用和部署构成潜在威胁。尽管这项技术尚未公开滥用,但其潜在威胁已引起业界高度重视。OpenAI、谷歌等科技巨头已将重点放在提高AI模型的提示健壮性上,以抵御"多示例越狱"等攻击形式。

图3注释:左侧图显示了在不断增加的上下文窗口中多次越狱攻击的规模(该指标越低表示有害响应的数量越多);右边的图显示了一系列良性上下文学习任务(与任何越狱尝试无关)的惊人相似的模式。

4. 应对措施

为了应对多示例越狱的风险,开发者需要加强模型的安全训练,识别并过滤虚假示例。此外,模型评估和对齐评估对于发现和解决安全漏洞至关重要。开发者应该密切关注模型的输出,确保其对用户和社会的影响是积极的。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O72Q5TTeO646P_rH13VzOGRA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券