Web 应用防火墙概述

什么是大模型安全
大模型安全是腾讯云 Web 应用防火墙（WAF）面向生成式 AI 场景的安全防护能力。它接入用户与大语言模型（Large Language Model，LLM）之间的交互链路，对用户输入的提示词（Prompt）和模型输出的生成内容进行检测，可识别提示词注入、内容违规、敏感数据泄露、算力异常消耗等大模型应用场景下的常见风险。
与传统 WAF 基于 HTTP 特征的规则匹配不同，大模型安全采用语义理解、关键词匹配、数据分类识别与编码还原相结合的检测方式，可覆盖自然语言层面的风险，并支持文本与图片的多模态检测。
开通方式
1. 登录 Web 应用防火墙购买页，购买 SaaS 型或云原生型 WAF 实例。
2. 登录 WAF 控制台，在左侧导航栏选择大模型安全，单击立即开通。
3. 在开通弹窗中选择套餐类型，单击立即开通。
﻿
说明：
详细套餐与计费说明，请参见 计费概述。
接入方式
大模型安全提供两种接入方式，您可以根据业务架构和能力需求进行选择。
对比项
流量接入
SDK/API 接入
适用场景
业务域名可迁移至 WAF 防护
不希望迁移域名，按需调用检测能力
网络改造
修改 DNS CNAME
无需改动网络拓扑
流式协议
支持 SSE 协议接入
原生支持 SSE 流式审核
配置项
会话标识 + 防护路径 + 防护策略
仅需配置防护策略
多模态检测
暂不支持
支持文本与图片
可用防护能力
算力消耗防护、自定义防护规则
算力消耗防护、自定义防护规则、提示词攻击防护、内容合规检测、Tool Call 防护、Skill 安全检测、敏感数据检测、安全代答
配置入口
﻿接入管理 > 域名接入﻿
﻿大模型安全 > SDK 接入﻿
说明：
若业务部署在腾讯云上且可统一接入 WAF，建议选择流量接入；若使用自建 AI Agent、不希望流量经过 WAF，或需要使用多模态检测和针对大模型场景的预置检测项，建议选择 SDK/API 接入。
防护能力
大模型安全的防护能力分为基础防护和预置场景防护两类。基础防护在两种接入方式下均可配置，完成防护策略配置后即可使用；预置场景防护针对大模型常见风险场景，由平台维护对应的检测规则库，仅在 SDK/API 接入下提供，且需要业务方在服务端集成 SDK / 调用 API，将待检测内容（输入提示词、模型输出、Tool Call 参数、Skill 包等）上报至大模型安全后才会触发检测。
说明：
当同一请求同时命中内容安全防护规则与本文所述内容检测时，内容安全防护规则优先生效：
若命中的内容安全防护规则动作为拦截或代答，则流程结束，不再进行内容检测。
若为观察或未命中，则进行内容检测。
基础防护
能力
说明
算力消耗防护
针对高频调用、超长上下文等场景，限制单位时间内的请求次数和 Token 消耗量，缓解算力被异常占用的风险。命中后可执行观察或拦截动作。
自定义防护规则
可在数据分类、涉敏信息、关键词、提示词注入、正则表达式、编码类型识别等类型中灵活组合，每条规则最多可叠加多个匹配条件，优先级高于平台预置规则。命中后支持观察、拦截，或使用 安全代答 作为响应内容。
SDK 调用能力
能力
说明
提示词攻击防护
针对提示词注入类攻击进行检测，覆盖指令覆盖、角色扮演越狱、越权指令等常见手法，有助于降低系统提示词被绕过或泄露的风险。
内容合规检测
基于平台预置规则对输入和输出内容进行扫描，按需启用所需检测项即可使用，支持文本与图片的多模态检测，并可对 Base64、URL 编码等常见编码内容进行还原后检测。提供仅检测输入、仅检测输出、输入输出均检测三种模式。
Tool Call 防护
针对大模型调用外部工具或函数的行为进行检测，基于平台预置规则库覆盖高危系统命令、数据破坏、敏感凭据外泄等常见场景。命中后可执行观察或拦截动作。具体规则项以控制台页面为准。
敏感数据检测
基于数据分类识别引擎，对模型回答中可能出现的身份证号、银行卡号、手机号、邮箱、密钥与 Token 等敏感信息进行识别。提供仅检测输入、仅检测输出、输入输出均检测三种模式。具体识别项以控制台页面为准。
说明：
仅旗舰版大模型安全支持敏感数据检测。
Skill 安全检测
对 AI Agent 的 Skill 包进行异步静态扫描，分析供应链风险、命令执行、网络外传、文件操作、提示词注入、远程脚本下载、混淆与编码等维度，返回 benign / suspicious / malicious 三级评估结果。
安全代答
由大模型基于风险类型和对话上下文，以流式（SSE）方式生成替代回答。支持腾讯云内置可信模型代答和自定义代答库两种模式，可在自定义防护规则的执行动作中使用。
说明：
安全代答当前处于公测阶段，默认不开放，如需使用请 提交工单 或联系专属客户经理申请。
应用场景
场景
痛点
推荐能力组合
智能客服
用户输入恶意提示词，诱导客服泄露内部信息
提示词攻击防护 + 敏感数据检测
AI 内容创作
模型生成违法违规内容，面临合规风险
内容合规检测 + 安全代答
企业知识库
员工通过 AI 问答外泄商业机密
敏感数据检测 + 自定义防护规则
AI Agent / 工具调用平台
算力被异常占用，工具链被用于执行高危操作
算力消耗防护 + Tool Call 防护 + Skill 安全检测
﻿

对比项	流量接入	SDK/API 接入
适用场景	业务域名可迁移至 WAF 防护	不希望迁移域名，按需调用检测能力
网络改造	修改 DNS CNAME	无需改动网络拓扑
流式协议	支持 SSE 协议接入	原生支持 SSE 流式审核
配置项	会话标识 + 防护路径 + 防护策略	仅需配置防护策略
多模态检测	暂不支持	支持文本与图片
可用防护能力	算力消耗防护、自定义防护规则	算力消耗防护、自定义防护规则、提示词攻击防护、内容合规检测、Tool Call 防护、Skill 安全检测、敏感数据检测、安全代答
配置入口	接入管理 > 域名接入	大模型安全 > SDK 接入

能力	说明
算力消耗防护	针对高频调用、超长上下文等场景，限制单位时间内的请求次数和 Token 消耗量，缓解算力被异常占用的风险。命中后可执行观察或拦截动作。
自定义防护规则	可在数据分类、涉敏信息、关键词、提示词注入、正则表达式、编码类型识别等类型中灵活组合，每条规则最多可叠加多个匹配条件，优先级高于平台预置规则。命中后支持观察、拦截，或使用安全代答作为响应内容。

能力	说明
提示词攻击防护	针对提示词注入类攻击进行检测，覆盖指令覆盖、角色扮演越狱、越权指令等常见手法，有助于降低系统提示词被绕过或泄露的风险。
内容合规检测	基于平台预置规则对输入和输出内容进行扫描，按需启用所需检测项即可使用，支持文本与图片的多模态检测，并可对 Base64、URL 编码等常见编码内容进行还原后检测。提供仅检测输入、仅检测输出、输入输出均检测三种模式。
Tool Call 防护	针对大模型调用外部工具或函数的行为进行检测，基于平台预置规则库覆盖高危系统命令、数据破坏、敏感凭据外泄等常见场景。命中后可执行观察或拦截动作。具体规则项以控制台页面为准。
敏感数据检测	基于数据分类识别引擎，对模型回答中可能出现的身份证号、银行卡号、手机号、邮箱、密钥与 Token 等敏感信息进行识别。提供仅检测输入、仅检测输出、输入输出均检测三种模式。具体识别项以控制台页面为准。说明：仅旗舰版大模型安全支持敏感数据检测。
Skill 安全检测	对 AI Agent 的 Skill 包进行异步静态扫描，分析供应链风险、命令执行、网络外传、文件操作、提示词注入、远程脚本下载、混淆与编码等维度，返回 benign / suspicious / malicious 三级评估结果。
安全代答	由大模型基于风险类型和对话上下文，以流式（SSE）方式生成替代回答。支持腾讯云内置可信模型代答和自定义代答库两种模式，可在自定义防护规则的执行动作中使用。说明：安全代答当前处于公测阶段，默认不开放，如需使用请提交工单或联系专属客户经理申请。

场景	痛点	推荐能力组合
智能客服	用户输入恶意提示词，诱导客服泄露内部信息	提示词攻击防护 + 敏感数据检测
AI 内容创作	模型生成违法违规内容，面临合规风险	内容合规检测 + 安全代答
企业知识库	员工通过 AI 问答外泄商业机密	敏感数据检测 + 自定义防护规则
AI Agent / 工具调用平台	算力被异常占用，工具链被用于执行高危操作	算力消耗防护 + Tool Call 防护 + Skill 安全检测

概述

本页目录：

什么是大模型安全

开通方式

接入方式

防护能力

基础防护

SDK 调用能力

应用场景