TI 平台在线服务模块为用户提供大模型服务鉴权和限流的产品功能,支持用户针对单个服务配置多个密钥,并支持基于 Tokens 计数进行大模型流量控制,以此实现精细化的调用方管理和流量控制。
开启服务鉴权
用户在新建在线服务的参数配置页面,开启【是否生成鉴权】开关即可开启服务鉴权功能。因为鉴权开关的状态与部署的服务本身无关,所以服务创建后,用户若需切换鉴权开关的状态,无需停止或更新服务即可在服务详情页的【服务鉴权】Tab 中进行编辑修改。

管理鉴权密钥
开启鉴权密钥后,用户可单击在线服务名称,进入服务详情页面,通过【服务鉴权】的 Tab 页对鉴权密钥进行统一管理。

该页面列表字段解释如下:
密钥:展示用户访问服务所需的密钥信息,当前仅支持 AuthToken 的密钥类型。开启鉴权后用户需在服务请求中需携带该 AuthToken 进行鉴权。支持用户单击列表页上的新增密钥来添加一个新的自定义密钥。

限流信息:展示用户对每个密钥单独设置的限流信息,限流类型支持两种:每分钟最大 Token 数(TPM)和每日最大 Token 数(TPD)。

备注:展示用户给密钥添加的备注信息,方便用户详细记录各密钥用途。
创建时间:密钥被创建的时间。
状态:密钥当前的状态,有“已启用/已禁用”两个枚举值,可通过操作 > 禁用/启用按钮切换密钥状态,禁用密钥后,TI 平台将拒绝此密钥的所有服务请求,请谨慎操作。
服务限流
用户可通过服务鉴权列表页的【操作-限流】按钮设置对应密钥的流量控制。由于非大模型服务无 token 概念所以无法进行 token 限流,所以限流功能仅支持“模型来源”为"镜像-内置大模型",或“运行环境”为“内置-LLM”的大模型服务,且有一个前提条件是:模型的 response 需满足 openai 规范 必须包含标准的 usage 字段信息。
目前支持的限流方式有两种:每分钟最大 Token 数(通过该密钥,每分钟能请求的最大 Token 数) 和 每日最大Token数(通过该密钥,每日能请求的最大 Token 数)。对密钥设置限流后,一旦该密钥的服务请求触发了流量上限则会导致请求报错。

服务鉴权调用监控
由于平台支持用户针对单个大模型服务配置多个密钥鉴权,所以在大模型服务的调用监控页面,平台也支持用户通过切换鉴权 AuthToken 详细的查看每个调用方的调用信息,实现精细化的流量监控。
