在线推理

最近更新时间:2026-04-03 16:27:22

我的收藏

功能概述

在线推理用于管理如何使用模型,例如免费额度用量、是否开启按 Token 计费,安全策略、限流策略等。与模型的关系参考下图:


服务类型

在线推理服务有两种类型:

1. 默认

平台会默认为所有支持的模型创建在线推理服务。用户可在 模型广场、模型详情页领取免费体验包,或在 在线推理 页面的服务列表中单击免费体验,快速开始使用。

2. 自定义

当您需要自定义模型服务的计费策略,或希望创建多个服务以便按团队区分用量统计与权限管理时,可前往 在线推理 创建自定义推理服务。
自定义推理服务支持选择更丰富的计费方式,例如 TPM 保障包。未来,平台还将进一步支持在自定义服务中配置智能路由、限流规则、插件启停等能力,帮助您实现更灵活的服务管理与治理。


服务状态

每个在线推理服务都有状态,具体如下:
状态
说明
未启动
默认类型的推理服务,用户未使用前为未启动状态,开始免费体验后会变为运行中状态。
开通中
服务首次启用时,将会有个短暂的开通中状态,预计 5s 以内会变为运行中。
运行中
当前服务可正常访问。
已暂停
当账号欠费时,按量计费的服务会变为已暂停;当账号费用冲正后,服务会自动恢复到运行中。
已停止
当免费额度使用完后,用户未开启后付费时,或用户手动关闭了服务的后付费时,服务会变为已停止,需要用户在 在线推理 页面手动开启后付费恢复服务。

计费方式

计费方式标记当前服务的付费状态,具体含义如下:
状态
说明
免费体验
当前服务正在使用免费体验包,在免费体验包内的用量不计费。
按 Token 计费
当前服务已开通按 Token 使用量计费的后付费方式。
TPM 保障
当前服务已开通 TPM 保障,超出 TPM 限制的流量会按照 Token 计费。
当用户免费体验包用完后,未开启后付费时,将没有计费状态,服务会变为停止状态。
说明:
用户在免费体验包未使用完时也可提前打开后付费,打开后会同时展示:免费体验、按 Token 计费两种状态,平台会优先消耗免费体验包额度,免费体验包消耗完成后将开始按 Token 用量计费。