
研究人员发现,操控大型语言模型(LLM)行为所需的成本和难度,远低于此前所有人的预期。
过去,“毒害” 并操控支撑 AI 智能体与聊天机器人的大型语言模型(LLM),一直被视为高阶黑客任务 —— 不仅需要强大的算力支持,还需投入大量精力。但事实上,实现这一目标的难度,比人们此前设想的要低得多。
在近期一项联合研究中,来自 Anthropic 公司、英国 AI 安全研究所(UK AI Security Institute)与艾伦・图灵研究所(Alan Turing Institute)的研究人员发现:仅用 250 份 “有毒文档”,就能成功为不同规模的 AI 模型植入后门。这项研究颠覆了 “攻击者需控制一定比例训练数据才能操控模型行为” 的传统认知,证明少量固定数量的恶意文档,已足以达成攻击目的。
Anthropic 公司在近期一篇博客文章中指出:“这一发现挑战了‘模型规模越大,所需投毒数据比例越高’的传统假设。具体而言,我们证实:只需在预训练数据中注入 250 份恶意文档,攻击者就能成功为参数规模从 6 亿到 130 亿的 LLM 植入后门。”
在数据投毒攻击中,攻击者会故意将恶意或受损数据注入机器学习(ML)模型的训练数据集,以操控模型行为。他们可通过投毒数据植入 “后门”—— 当模型检测到特定触发语句时,就会表现出恶意行为(例如让 LLM 生成恶意代码);也可通过受损数据或文档降低模型性能,或导致模型出现其他非预期行为。
为验证 “投毒数据量与模型规模的关系”,研究团队针对四种不同参数规模(6 亿至 130 亿参数)的模型展开训练。对每种规模的模型,研究人员分别在训练过程中植入 100 份、250 份或 500 份恶意文档,核心目标是测试:当模型检测到触发短语时,是否会输出无意义的乱码。
结果显示:250 份恶意文档,足以成功为所有规模的模型植入后门。尽管更大规模的模型需基于 20 倍以上的训练数据训练,但在面对固定数量的恶意文档时,其脆弱性与小规模模型完全一致。
Malwarebytes 公司 AI 专家马克・斯托克利(Mark Stockley)表示,Anthropic 的研究结果令人意外,也凸显了人类对 AI 的认知仍存在大量空白。此前,行业普遍认为,攻击者需控制一定比例的训练数据才能实施数据投毒攻击。
他举例说明:“通常情况下,6 亿参数的模型需 6 亿个 token 的训练数据(约相当于 400 万本书),而 130 亿参数的模型所需训练数据是前者的 22 倍(约相当于 9000 万本书)。过去人们普遍假设,攻击后者需要 22 倍的投毒数据。但这项研究证明,只需操控训练数据中十亿分之一的比例(即 250 份文档),就能‘毒害’这类模型。这意味着,数据投毒攻击的难度远比想象中低。”
部分专家认为,Anthropic 的研究结论不仅适用于 GPT、Claude、Grok 等前沿模型的开发者,也对企业级 AI 应用(如预训练模型微调、检索增强生成技术应用)具有重要警示意义。
Darktrace 公司安全与 AI 战略高级总监科林・沙普洛(Collin Chapleau)指出:“问题的核心始终在于训练数据。前沿大型模型若依赖互联网数据训练,显然存在训练数据安全问题,但多数先进模型会通过‘基于人类反馈的强化学习(RLHF)’来缓解这类风险。”
相比之下,企业在自行微调 AI 模型时面临的风险更高 —— 企业往往会使用未经验证的数据,且缺乏实施 RLHF 等风险缓解措施的资源。“此外,已有研究表明,模型可能会绕过安全训练,在后续使用中表现出非预期行为,这无疑会进一步加剧风险。” 沙普洛补充道。
StrongestLayer 公司首席执行官艾伦・勒福特(Alan Lefort)则关注到 “检索增强生成(RAG)技术” 的风险。他表示,企业若通过 RAG 管道从内部或外部数据源获取信息,以实现通用 AI 的场景化适配,需警惕 RAG 管道获取的数据源被 “投毒”—— 一旦数据源含恶意内容,整个 AI 系统都可能受到影响。
不过,斯托克利也提醒,无论是前沿模型开发者还是企业级 AI 应用者,都无需过度恐慌,认为自身已面临迫在眉睫的攻击风险。
他解释道:“首先,多数使用 AI 的企业并未涉及语言模型训练工作;其次,对具备‘投毒’能力(即能接触到模型训练数据)的攻击者而言,他们通常有更直接、更盈利的方式利用自身权限,而非选择‘投毒’。”
从攻击路径来看,攻击者理论上可通过两种方式实施投毒:一是 “污染” 常用于 LLM 训练的网页内容(通过爬虫抓取);二是制作并传播被 “投毒” 的开源模型(如 GPT-OSS、Llama 等轻量高效模型)。但斯托克利强调:“目前来看,这些攻击路径的可行性仍较低。这项研究的核心价值,并非发现了一种可立即落地的新型攻击手段,而是揭示了未来网络安全格局的潜在趋势 —— 许多安全研究的意义,在于指出‘基于传统假设构建的安全体系可能存在漏洞’,而非直接定义一种攻击方式。”
勒福特则从 AI 供应链安全的角度解读了这项研究:“长期以来,AI 安全领域的关注点多集中在‘推理阶段的对抗性输入’(即模型运行时的外部攻击),但这项研究证明,训练阶段才是真正的脆弱点。” 他进一步指出,研究结果凸显了一个核心问题:攻击者只需极少量数据就能 “毒害” 模型,而现有技术几乎无法检测这种攻击 —“这是一种典型的‘不对称风险’:训练阶段的‘投毒’操作简单,但‘解毒’几乎不可能。我们既无法定位导致模型异常的 250 份文档,也无法在不重新训练的情况下消除其影响。”
Noma Security 公司首席信息安全官(CISO)戴安娜・凯利(Diana Kelley)认为,要防范数据投毒攻击,需聚焦 AI 生命周期中的数据安全防护,核心措施可从以下三方面入手:
凯利强调:“这项研究的核心启示之一,是我们严重误判了‘规模’与‘风险’的关系。过去,人们普遍认为‘模型规模越大,抗攻击能力越强’,但事实证明,我们对 AI 学习机制的理解仍不充分 —— 少量恶意输入可能通过学习动态被放大,进而影响模型整体行为。这提醒我们,AI 安全不是一个静态问题,需要持续迭代防护策略。”
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。