操作场景
限流策略用于控制客户端对 AI 网关 API 的访问频率,保护后端模型服务免受突发流量冲击。通过配置限流策略,您可以:
按消费者、API、路由等维度进行限流
支持多种时间窗口(秒、分钟、小时、天)
配置限流后的处理方式(拒绝请求或排队等待)
查看限流触发记录和统计数据
本文档指导您如何在 AI 网关中配置和管理限流策略。
前置条件
已创建 AI 网关实例
已创建模型 API
已创建消费者(如按消费者限流)
操作步骤
步骤1:进入 API 配置页
在 API 详情页,找到 限流策略 区域。
步骤2:开启限流
开启限流开关。
步骤3:配置限流规则
参数 | 是否必填 | 说明 | 示例 |
限流维度 | 是 | 选择限流维度: • 消费者级别:按消费者限流,不同消费者独立计数 • API 级别:按 API 限流,所有消费者共享配额 • 路由级别:按路由限流,适用于 Agent API | 消费者级别 |
时间窗口 | 是 | 限流统计时间窗口: • 秒:1秒、5秒、10秒 • 分钟:1分钟、5分钟、15分钟 • 小时:1小时、6小时 • 天:1天 | 1分钟 |
请求次数 | 是 | 时间窗口内允许的最大请求次数 | 1000 |
限流后处理 | 是 | 达到限流阈值后的处理方式: • 直接拒绝:返回429错误 • 排队等待:将请求加入队列,等待窗口刷新后处理 | 直接拒绝 |
排队超时时间 | 否(选择排队等待时必填) | 请求在队列中的最大等待时间 | 5秒 |
说明:
消费者级别限流:每个消费者独立统计,适用于多租户场景。
API 级别限流:所有消费者共享配额,适用于保护后端服务。
路由级别限流:仅适用于 Agent API,可为不同的路由配置不同的限流策略。
步骤4:配置多维度限流(可选)
可同时配置多个限流规则,组合不同的维度和时间窗口:
示例:为 API 配置三层限流保护
规则1:消费者级别,1秒内最多10个请求;
规则2:消费者级别,1分钟内最多1000个请求;
规则3:API 级别,1分钟内最多5000个请求。
网关会依次检查所有规则,任意规则触发限流都会拒绝请求。
步骤5:保存配置
单击 确定 保存限流策略配置。