首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >谷歌发布 AI Agent 安全白皮书:全面解析智能体两大安全风险、三大防御原则

谷歌发布 AI Agent 安全白皮书:全面解析智能体两大安全风险、三大防御原则

作者头像
不二小段
发布2026-04-09 15:53:21
发布2026-04-09 15:53:21
3800
举报
文章被收录于专栏:不二小段不二小段

随着 AI Agent (AI 智能体) 的进一步发展,它们不再仅仅是像 ChatGPT 那样与你对话、生成内容的「大脑」,而且拥有了能够感知环境、自主决策并采取行动的「手脚」。它们可以帮你自动分类邮件、处理客服请求,甚至能完成「调研多个信源、总结发现并撰写报告邮件」这样复杂的多步任务。

从谷歌的 Agent Development Kit 到开源的 LangChain 框架,技术的快速发展预示着,未来将不是单个 Agent 在孤军奋战,而是成千上万的「Agent 部队」在企业和个人生活中协同运作。

这股浪潮带来了前所未有的效率革命,但也打开了一个潘多拉魔盒。当 AI 掌握了执行动作的权力,一个独特且严峻的安全挑战摆在了我们面前。

最近,谷歌发布了一份名为《An Introduction to Google's Approach to AI Agent Security》的重磅白皮书,系统性地阐述了 AI Agent 的安全风险,并首次详细披露了谷歌内部正在实践的「混合式深度防御」策略。

Image
Image

这不仅仅是一份技术文档,更是对未来人机协作形态的一次深度安全预警。当我们将现实世界的权限交给这些日益聪明的「数字雇员」时,如何确保它们不会「叛变」或被恶意操控,成为一个必须回答的终极问题。

今天,我们就来深度解读这份白皮书,一探究竟:AI Agent 究竟潜藏着哪些致命风险?谷歌又提出了怎样的「驯服」之道?

AI Agent 的「七寸」:扒开架构看风险

要理解 Agent 的安全风险,首先要看懂它们是如何工作的。谷歌在白皮书中提供了一个简化的通用 Agent 架构图:

Image
Image

一个典型的 Agent 工作流可以被拆解为以下几个核心步骤,而每个步骤都暗藏玄机:

  1. 1. 输入感知

这是 Agent 与世界交互的起点。它接收的输入可能是用户直接下达的命令(如语音、文字),也可能是从环境中自动抓取的上下文数据(如邮件内容、网页信息、传感器读数)。

  • 安全隐患:这里的核心挑战在于,Agent 能否准确区分「可信的用户指令」和「潜在不可信的外部数据」。如果不能,就会为 「提示词注入」(Prompt Injection) 攻击大开方便之门。攻击者可以将恶意指令隐藏在一封邮件或一个网页中,当 Agent 读取这些内容时,就可能被劫持,把恶意指令误当作用户命令来执行。
  1. 2. 系统指令

这部分是 Agent 的「出厂设置」,定义了它的身份、目标、能力和行为边界。Agent 会将这些系统指令与用户输入的具体任务、以及从记忆或外部工具中检索到的信息,整合成一个结构化的提示词,喂给核心的 AI 模型。

  • 安全隐患:如果系统指令与用户输入、外部数据之间的边界模糊不清,那么「提示词注入」的风险就会被放大。攻击者可以构造特定的输入,试图覆盖或扭曲原始的系统指令,从而让 Agent 「背叛」其最初的设计目标。
  1. 3. 推理与规划

这是 Agent 的「大脑中枢」。核心 AI 模型(通常是 LLM)会根据收到的整合提示词进行「思考」,理解用户意图,并制定一个行动计划。这个过程往往是迭代式的,Agent 会根据新信息或工具的反馈不断调整计划。

  • 安全隐患:LLM 的规划过程是概率性的,这意味着它本质上是 不可预测 的。此外,当前 LLM 架构无法严格区分提示词中的不同部分,这使其极易受到操纵。而迭代式的「推理循环」会加剧这一风险:每一次循环都可能引入逻辑错误或偏离用户意图,一旦被恶意数据劫持,错误就会像滚雪球一样越滚越大。因此,一个高度自治、能进行复杂多步规划的 Agent,风险等级也呈指数级上升。
  1. 4. 编排与行动执行

这是 Agent 将「思考」转化为「行动」的阶段。它通过调用各种「工具」(Tools) 或「动作」(Actions) 来与外部世界互动,例如调用 API 发送邮件、查询数据库、控制智能家居,甚至操作浏览器界面。

  • 安全隐患:这是风险最终兑现的地方。一个「恶意计划」在这里会造成真实世界的危害。如果 Agent 在规划阶段被劫持,它就可能被操控去执行「删除文件」、「非授权采购」、「转移数据」等高危操作。每一个工具都赋予了 Agent 一种权力,不受控的权力是极其危险的。此外,动态加载第三方工具也会引入新的风险,比如工具的描述可能具有欺骗性,或者其本身存在安全漏洞。
  1. 5. 智能体记忆

许多 Agent 会维持某种形式的记忆,以便在多次交互中保持上下文,或记住用户的偏好。

  • 安全隐患:记忆可能成为 「持久性攻击」 的载体。想象一下,如果一个包含「提示词注入」的恶意文档被 Agent 读取、总结并存入了记忆,这个恶意的「事实」就可能在未来某个完全不相关的任务中被激活,持续地污染 Agent 的行为。因此,确保不同用户之间、甚至同一用户不同任务上下文之间的记忆严格隔离至关重要。
  1. 6. 响应生成与渲染

最后,Agent 将其最终输出格式化,并在用户界面(如浏览器或 App)上呈现出来。

  • 安全隐患:如果应用程序在渲染 Agent 输出的内容时,没有进行适当的「净化」或「转义」,就可能导致严重的安全漏洞,比如 「跨站脚本攻击」(XSS)。攻击者可以诱骗 Agent 生成包含恶意脚本的输出,当这些内容被浏览器渲染时,脚本就会在用户的设备上执行,可能导致数据被盗。

两大「原罪」:恶意行为与数据泄露

谷歌认为,在上述复杂的架构中,所有风险最终可以归结为两大类,它们是 AI Agent 安全问题的「原罪」。

Image
Image

风险一:恶意行为

「恶意行为」指的是 Agent 执行了非预期的、有害的或违反策略的动作。

恶意行为的产生主要有以下几种途径:

  • 恶意劫持:这是最主要的原因,通常由「提示词注入」引发。攻击者将恶意指令隐藏在 Agent 处理的数据中,欺骗核心 AI 模型,使其在规划或推理阶段被劫持,最终以用户的名义执行攻击者的命令。例如,一个旨在帮你总结邮件的 Agent,可能被一封恶意邮件操控,反过来泄露你的其他邮件内容。
  • 根本性错位:即使没有恶意输入,Agent 也可能因为误解了用户的模糊指令或上下文而犯错。比如,用户说「给 Mike 发邮件汇报项目进展」,如果 Agent 选错了联系人列表里的 Mike,就可能无意中将敏感信息泄露给外人。这是 Agent 的解读与用户真实意图之间的可悲偏离。
  • 环境误判:当 Agent 与复杂的外部工具或环境交互时,也可能产生误判。例如,它可能错误地识别了一个网页上的按钮功能,本想点击「下一页」,结果却点击了「确认购买」,导致意外的财务损失。

这些恶意行为的潜在影响,与其被授予的权限和工具直接相关。一个只能读写文本的 Agent 和一个能操作银行账户、控制医疗设备的 Agent,其风险不可同日而语。财务损失、数据泄露、系统瘫痪,甚至人身安全都可能受到威胁。

风险二:敏感数据泄露

这是另一个致命风险,指 Agent 以不当方式泄露了用户的隐私或机密信息。

实现数据泄露的主要手法是 「数据外泄」。攻击者会通过一系列精心设计的指令,诱导 Agent 将敏感数据泄露出来。

  • 利用行动的副作用:攻击者可以诱骗 Agent 先获取敏感数据(如读取本地文件),然后通过某些行动将数据「编码」并发送出去。比如,让 Agent 将窃取到的密码隐藏在一个它需要访问的 URL 的参数中,当 Agent 请求该 URL 时,数据就被发送到了攻击者的服务器上。或者,将秘密信息隐藏在代码提交的注释中。
  • 操纵输出生成:攻击者也可以诱骗 Agent 将敏感数据直接包含在它的正常文本或 Markdown 响应中。如果前端应用在渲染这些内容时存在漏洞(如 XSS),这些数据就会被泄露。一个常见的伎俩是在 Markdown 中插入一个精心构造的图片 URL,当浏览器尝试加载这个图片时,就会将敏感数据泄露出去。

数据泄露的后果往往是毁灭性且不可逆的,可能导致隐私侵犯、知识产权损失、合规性违规,甚至是账户被完全接管。

谷歌的「三板斧」:驯服 AI Agent 的核心安全法则

面对如此严峻的挑战,我们不能因噎废食。谷歌认为,传统的系统安全方法不足以应对 Agent 的动态和不确定性,而完全依赖 AI 模型自身的判断力又过于天真。

为此,谷歌提出了指导 Agent 产品开发的三大核心安全原则,它们是构建可信 Agent 的基石。

Image
Image

原则一:智能体必须有明确的人类控制者

  • 核心思想:任何 Agent 的行动都必须能够追溯到一个明确的、经过授权的人类用户。它必须始终处于人类的监督之下,尤其是在执行关键或不可逆操作时。
  • 具体措施
    • 身份和指令区分:系统必须能可靠地区分指令是来自授权用户,还是来自 Agent 处理的潜在不可信数据。
    • 关键操作需人类确认:对于删除大量数据、批准大额支付、修改安全设置等高危行为,系统应强制要求用户进行明确的二次确认。
    • 精细化的权限管理:在多用户或团队协作场景中,需要为 Agent 设置清晰的身份和授权模型,防止交叉访问数据。用户应被赋予工具来对共享 Agent 进行更细粒度的权限控制。

原则二:智能体的权力必须受到限制

  • 核心思想:Agent 的权力(它能执行的动作和能访问的资源)必须被严格限制,与其预期用途和用户的风险承受能力相匹配。这超越了传统的「最小权限原则」,要求权限是 动态的、与上下文相关的
  • 具体措施
    • 动态权限限制:一个为研究任务设计的 Agent 不应该拥有修改财务账户的权力。通用型 Agent 需要有机制在运行时动态地限制其能力,确保在执行特定任务时只激活相关的权限(例如,写诗时禁用文件删除功能)。
    • 禁止自我提权:必须从根本上防止 Agent 超出预授权范围,自行提升自己的权限。
    • 用户可审查和撤销:用户必须始终保留检查和撤销任何授予 Agent 的权力的能力。
    • 强大的基础设施支持:这需要为 Agent 建立强大的认证、授权和审计 (AAA) 基础设施,并使用像 OAuth 令牌这样的作用域受限的凭证来安全地管理访问。

原则三:智能体的行动和规划必须是可观测的

  • 核心思想:透明度是信任、调试、安全审计和事件响应的基础。我们必须能够看清 Agent 的「所思所想」和「所作所为」。
  • 具体措施
    • 全面的日志记录:必须在 Agent 架构的各个层面实施强大的日志记录,捕获关键信息,如收到的输入、调用的工具、传递的参数、生成的输出,以及(在可能的情况下)中间的推理步骤。
    • 清晰的动作特征描述:Agent 可以执行的每个动作的属性——例如,该动作是只读还是会改变状态,是否处理敏感数据——都必须被明确地表征出来。这些元数据对自动化安全机制和人类审查至关重要。
    • 透明的用户界面:UI 设计应向用户展示 Agent 的「思考过程」,它参考了哪些数据源,打算采取什么行动,尤其是在处理复杂或高风险操作时。
Image
Image

Agent 安全原则、控制和基础设施需求总结

Agent 安全「组合拳」:混合式深度防御实战

基于上述三大原则,谷歌提出并正在实施一种 「混合式深度防御」(Hybrid Defense-in-Depth) 策略。

这个策略巧妙地结合了传统的、确定性的安全控制和新颖的、基于 AI 推理的动态防御,形成一个多层次的、纵深的安全体系。目标是在最大化保留 Agent 效用的同时,为最坏的情况兜底,显著降低「恶意行为」等风险造成的危害。

Image
Image

图:谷歌的混合式深度防御方法

第一层防御:传统确定性措施

这一层是坚固的外部壁垒,由在 AI 模型之外运行的、可靠的、确定性的 「策略引擎」构成。

  • 工作方式:当 Agent 决定执行一个动作时(如「发送邮件」),请求首先会被策略引擎拦截。引擎会根据预定义的规则来评估这个请求。这些规则基于多种因素,如动作的固有风险(是否不可逆?是否涉及金钱?)、当前上下文、甚至之前的动作链(Agent 最近是否处理过不可信数据?)。
  • 实际案例
    • 一条策略可以强制执行支出上限,自动阻止任何超过 500 美元的采购请求,而对于 100 到 500 美元之间的采购,则要求用户弹窗确认。
    • 另一条策略可以规定,如果 Agent 刚刚处理了来自已知可疑来源的数据,那么除非用户明确批准,否则禁止它向外部发送邮件。
  • 优缺点
    • 优点:这种方法的执行是可靠且可预测的,规则清晰,易于测试和审计。它为 Agent 的行为设定了不可逾越的硬性限制,有效控制了最坏情况下的损失。
    • 缺点:策略的制定和维护非常复杂,难以扩展到庞大的动作生态系统。更重要的是,策略缺乏深度的上下文理解能力,可能会误伤合法操作,或在未预料到的特定场景下放行有害操作。一个简单的静态规则很难判断「读取文档后发送邮件」到底是合法的「总结并发送」,还是恶意的「数据外泄」。

第二层防御:基于推理的防御策略

为了弥补传统策略在上下文理解和应对新型威胁上的不足,第二层防御利用 AI 模型自身的能力,即 「以子之矛,攻子之盾」

  • 工作方式:这一层旨在让 Agent 的核心推理过程本身对操纵更具弹性,更符合安全操作的准则。
  • 具体技术
    • 对抗性训练:在模型开发阶段,就用大量的攻击样本(如各种提示词注入)来训练它,教会模型识别并忽略嵌入数据中的恶意指令,或者将可疑输入标记出来进行审查。
    • 护栏模型:使用专门训练的、更小型的 AI 模型作为「分类器」或「安全分析师」。这些模型会检查 Agent 的输入、输出或计划中的动作,寻找攻击的蛛丝马迹(例如,在用户数据中检测到类似指令的语言模式)。
    • 风险预测:通过分析 Agent 提出的行动计划,另一个模型可以预测该计划导致不良后果的概率,从而对高风险计划进行标记,或触发更严格的策略执行。
  • 优缺点
    • 优点:基于推理的防御能够处理动态和复杂的上下文,可以学习和识别比静态规则更细微、更多变的攻击模式,极大地增加了攻击者的成本和难度。
    • 缺点:这些策略是 非确定性的,无法提供绝对的安全保证。它们仍可能被新颖的攻击所欺骗,且其失败模式难以预测。因此,它们不能单独用于需要绝对安全保证的关键场景,必须与确定性控制协同工作。

持续验证:红蓝对抗与安全审查

支撑这两层防御的是一套持续的验证保障活动。这包括:

  • 回归测试:确保已修复的漏洞不会再次出现。
  • 变体分析:主动测试已知威胁的变种,预测攻击者的演变路径。
  • 人类专家:专业的红队进行模拟攻击;安全审查员进行代码和设计审计;以及通过漏洞悬赏计划引入外部研究人员,利用集体智慧发现潜在弱点。

写在最后:驾驭未来,安全先行

AI Agent 无疑代表着一次巨大的技术飞跃,它所承诺的生产力解放和创新潜力是激动人心的。但正如谷歌这份白皮书所强调的,权力与责任并存,其高度的自主性和行动力,要求我们从一开始就必须采取一种积极且成熟的安全策略。

「恶意行为」和「数据泄露」的风险,根植于 Agent 系统的核心特性之中。单纯依赖为可预测软件设计的传统安全措施,或是盲目信任当前尚不完美的 AI 推理能力,都注定会失败。

谷歌提出的 混合式深度防御策略,为我们指明了一条务实且必要的道路。通过将确定性策略引擎的「硬性保障」与基于 AI 推理的「柔性适应」相结合,再辅以三大核心安全原则(人类控制、权力受限、行为可观)作为顶层指导,我们可以构建一个更具韧性的安全态势。

AI Agent 的安全不是一个可以一劳永逸解决的问题,而是一门需要持续投入、不断适应和发展的学科。在我们努力提升其能力的同时,必须同等甚至更加优先地考虑其安全性。

只有这样,我们才能确保这些日益强大的数字伙伴,最终成为值得信赖的、与人类利益保持一致的得力助手,共同负责任地驾驭这次变革性的技术浪潮。

参考来源:https://research.google/pubs/an-introduction-to-googles-approach-for-secure-ai-agents/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-06-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • AI Agent 的「七寸」:扒开架构看风险
  • 两大「原罪」:恶意行为与数据泄露
  • 谷歌的「三板斧」:驯服 AI Agent 的核心安全法则
  • Agent 安全「组合拳」:混合式深度防御实战
  • 写在最后:驾驭未来,安全先行
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档