功能概述
在线推理用于管理如何使用模型,例如免费额度用量、是否开启按 Token 计费,安全策略、限流策略等。与模型的关系参考下图:

服务类型
在线推理服务有两种类型:
1. 默认
2. 自定义
自定义推理服务支持选择更丰富的计费方式,例如 TPM 保障包。未来,平台还将进一步支持在自定义服务中配置智能路由、限流规则、插件启停等能力,帮助您实现更灵活的服务管理与治理。

服务状态
每个在线推理服务都有状态,具体如下:
状态 | 说明 |
未启动 | 默认类型的推理服务,用户未使用前为未启动状态,开始免费体验后会变为运行中状态。 |
开通中 | 服务首次启用时,将会有个短暂的开通中状态,预计 5s 以内会变为运行中。 |
运行中 | 当前服务可正常访问。 |
已暂停 | 当账号欠费时,按量计费的服务会变为已暂停;当账号费用冲正后,服务会自动恢复到运行中。 |
已停止 |
计费方式
计费方式标记当前服务的付费状态,具体含义如下:
状态 | 说明 |
免费体验 | 当前服务正在使用免费体验包,在免费体验包内的用量不计费。 |
按 Token 计费 | 当前服务已开通按 Token 使用量计费的后付费方式。 |
TPM 保障 | 当前服务已开通 TPM 保障,超出 TPM 限制的流量会按照 Token 计费。 |
无 | 当用户免费体验包用完后,未开启后付费时,将没有计费状态,服务会变为停止状态。 |
说明:
用户在免费体验包未使用完时也可提前打开后付费,打开后会同时展示:免费体验、按 Token 计费两种状态,平台会优先消耗免费体验包额度,免费体验包消耗完成后将开始按 Token 用量计费。