腾讯云大模型训推平台TI-ONE 在线服务鉴权和限流

TI-ONE 平台在线服务模块为用户提供大模型服务鉴权和限流的产品功能，支持用户针对单个服务配置多个密钥，并支持基于 Tokens 计数进行大模型流量控制，以此实现精细化的调用方管理和流量控制。
开启服务鉴权
用户在新建在线服务的参数配置页面，开启【是否生成鉴权】开关即可开启服务鉴权功能。因为鉴权开关的状态与部署的服务本身无关，所以服务创建后，用户若需切换鉴权开关的状态，无需停止或更新服务即可在服务详情页的【服务鉴权】Tab 中进行编辑修改。
﻿
管理鉴权密钥
开启鉴权密钥后，用户可单击在线服务名称，进入服务详情页面，通过【服务鉴权】的 Tab 页对鉴权密钥进行统一管理。
﻿
该页面列表字段解释如下：
密钥：展示用户访问服务所需的密钥信息，当前仅支持 AuthToken 的密钥类型。开启鉴权后用户需在服务请求中需携带该 AuthToken 进行鉴权。支持用户单击列表页上的新增密钥来添加一个新的自定义密钥。
﻿
限流信息：展示用户对每个密钥单独设置的限流信息，限流类型支持以下3种：每分钟最大 Token 数（TPM）、每日最大 Token 数（TPD）和最大并发数。
﻿
备注：展示用户给密钥添加的备注信息，方便用户详细记录各密钥用途。
创建时间：密钥被创建的时间。
状态：密钥当前的状态，有“已启用/已禁用”两个枚举值，可通过操作 > 禁用/启用按钮切换密钥状态，禁用密钥后，TI-ONE 平台将拒绝此密钥的所有服务请求，请谨慎操作。
服务限流
用户可通过服务鉴权列表页的【操作-限流】按钮设置对应密钥的流量控制。由于非大模型服务无 token 概念所以无法进行 token 限流，所以限流功能仅支持“模型来源”为"镜像-内置大模型"，或“运行环境”为“内置-LLM”的大模型服务，且有一个前提条件是：模型的 response 需满足 openai 规范 必须包含标准的 usage 字段信息。
目前支持的限流方式有3种：
每分钟最大 Token 数：通过该密钥，每分钟能请求的最大 Token 数。
每日最大Token数：通过该密钥，每日能请求的最大 Token 数。
最大并发数：请注意此处配置的“最大并发数”是按密钥维度的细化限流，同时若您在新建服务时还设置了服务维度的“单副本最大并发数”，则您的请求也会同时受到服务副本全局维度的并发限制。
对密钥设置限流后，一旦该密钥的服务请求触发了流量上限则会导致请求报错。
﻿
服务鉴权调用监控
由于平台支持用户针对单个大模型服务配置多个密钥鉴权，所以在大模型服务的调用监控页面，平台也支持用户通过切换鉴权 AuthToken 详细的查看每个调用方的调用信息，实现精细化的流量监控。
﻿
﻿
在线服务鉴权和限流

本页目录：

开启服务鉴权

管理鉴权密钥

服务限流

服务鉴权调用监控