概述

最近更新时间:2026-05-27 19:41:01

我的收藏

什么是大模型安全

大模型安全是腾讯云 Web 应用防火墙(WAF)面向生成式 AI 场景的安全防护能力。它接入用户与大语言模型(Large Language Model,LLM)之间的交互链路,对用户输入的提示词(Prompt)和模型输出的生成内容进行检测,可识别提示词注入、内容违规、敏感数据泄露、算力异常消耗等大模型应用场景下的常见风险。
与传统 WAF 基于 HTTP 特征的规则匹配不同,大模型安全采用语义理解、关键词匹配、数据分类识别与编码还原相结合的检测方式,可覆盖自然语言层面的风险,并支持文本与图片的多模态检测。

开通方式

1. 登录 Web 应用防火墙购买页,购买 SaaS 型或云原生型 WAF 实例。
2. 登录 WAF 控制台,在左侧导航栏选择大模型安全,单击立即开通
3. 在开通弹窗中选择套餐类型,单击立即开通

说明:
详细套餐与计费说明,请参见 计费概述

接入方式

大模型安全提供两种接入方式,您可以根据业务架构和能力需求进行选择。
对比项
流量接入
SDK/API 接入
适用场景
业务域名可迁移至 WAF 防护
不希望迁移域名,按需调用检测能力
网络改造
修改 DNS CNAME
无需改动网络拓扑
流式协议
支持 SSE 协议接入
原生支持 SSE 流式审核
配置项
会话标识 + 防护路径 + 防护策略
仅需配置防护策略
多模态检测
暂不支持
支持文本与图片
可用防护能力
算力消耗防护、自定义防护规则
算力消耗防护、自定义防护规则、提示词攻击防护、内容合规检测、Tool Call 防护、Skill 安全检测、敏感数据检测、安全代答
配置入口
说明:
若业务部署在腾讯云上且可统一接入 WAF,建议选择流量接入;若使用自建 AI Agent、不希望流量经过 WAF,或需要使用多模态检测和针对大模型场景的预置检测项,建议选择 SDK/API 接入

防护能力

大模型安全的防护能力分为基础防护和预置场景防护两类。基础防护在两种接入方式下均可配置,完成防护策略配置后即可使用;预置场景防护针对大模型常见风险场景,由平台维护对应的检测规则库,仅在 SDK/API 接入下提供,且需要业务方在服务端集成 SDK / 调用 API,将待检测内容(输入提示词、模型输出、Tool Call 参数、Skill 包等)上报至大模型安全后才会触发检测
说明:
当同一请求同时命中内容安全防护规则与本文所述内容检测时,内容安全防护规则优先生效:
若命中的内容安全防护规则动作为拦截或代答,则流程结束,不再进行内容检测。
若为观察或未命中,则进行内容检测。

基础防护

能力
说明
算力消耗防护
针对高频调用、超长上下文等场景,限制单位时间内的请求次数和 Token 消耗量,缓解算力被异常占用的风险。命中后可执行观察或拦截动作。
自定义防护规则
可在数据分类、涉敏信息、关键词、提示词注入、正则表达式、编码类型识别等类型中灵活组合,每条规则最多可叠加多个匹配条件,优先级高于平台预置规则。命中后支持观察、拦截,或使用 安全代答 作为响应内容。

SDK 调用能力

能力
说明
提示词攻击防护
针对提示词注入类攻击进行检测,覆盖指令覆盖、角色扮演越狱、越权指令等常见手法,有助于降低系统提示词被绕过或泄露的风险。
内容合规检测
基于平台预置规则对输入和输出内容进行扫描,按需启用所需检测项即可使用,支持文本与图片的多模态检测,并可对 Base64、URL 编码等常见编码内容进行还原后检测。提供仅检测输入、仅检测输出、输入输出均检测三种模式。
Tool Call 防护
针对大模型调用外部工具或函数的行为进行检测,基于平台预置规则库覆盖高危系统命令、数据破坏、敏感凭据外泄等常见场景。命中后可执行观察或拦截动作。具体规则项以控制台页面为准。
敏感数据检测
基于数据分类识别引擎,对模型回答中可能出现的身份证号、银行卡号、手机号、邮箱、密钥与 Token 等敏感信息进行识别。提供仅检测输入、仅检测输出、输入输出均检测三种模式。具体识别项以控制台页面为准。
说明:
仅旗舰版大模型安全支持敏感数据检测。
Skill 安全检测
对 AI Agent 的 Skill 包进行异步静态扫描,分析供应链风险、命令执行、网络外传、文件操作、提示词注入、远程脚本下载、混淆与编码等维度,返回 benign / suspicious / malicious 三级评估结果。
安全代答
由大模型基于风险类型和对话上下文,以流式(SSE)方式生成替代回答。支持腾讯云内置可信模型代答和自定义代答库两种模式,可在自定义防护规则的执行动作中使用。
说明:
安全代答当前处于公测阶段,默认不开放,如需使用请 提交工单 或联系专属客户经理申请。

应用场景

场景
痛点
推荐能力组合
智能客服
用户输入恶意提示词,诱导客服泄露内部信息
提示词攻击防护 + 敏感数据检测
AI 内容创作
模型生成违法违规内容,面临合规风险
内容合规检测 + 安全代答
企业知识库
员工通过 AI 问答外泄商业机密
敏感数据检测 + 自定义防护规则
AI Agent / 工具调用平台
算力被异常占用,工具链被用于执行高危操作
算力消耗防护 + Tool Call 防护 + Skill 安全检测