部署推理服务

最近更新时间:2026-03-20 01:26:06

我的收藏

1. 接口描述

接口请求域名: hai.tencentcloudapi.com 。

本接口(DeployInferService)用于部署推理服务

默认接口请求频率限制:20次/秒。

推荐使用 API Explorer
点击调试
API Explorer 提供了在线调用、签名验证、SDK 代码生成和快速检索接口等能力。您可查看每次调用的请求内容和返回结果以及自动生成 SDK 调用示例。

2. 输入参数

以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见 公共请求参数

参数名称 必选 类型 描述
Action String 公共参数,本接口取值:DeployInferService。
Version String 公共参数,本接口取值:2023-08-12。
Region String 公共参数,详见产品支持的 地域列表
ServiceMetaData ServiceMetaData 服务元数据信息,如服务名
ComputeInfo ComputeInfo 资源相关信息
DeploymentConfigs.N Array of DeploymentConfig 服务部署信息
HyperParam HyperParam 服务超参数配置
NetworkSetting NetworkSetting 网络设置

3. 输出参数

参数名称 类型 描述
ServiceId String 服务ID
示例值:svc-8z2f0oik
RequestId String 唯一请求 ID,由服务端生成,每次请求都会返回(若请求因其他原因未能抵达服务端,则该次请求不会获得 RequestId)。定位问题时需要提供该次请求的 RequestId。

4. 示例

示例1 DeployInferService

输入示例

POST / HTTP/1.1
Host: hai.tencentcloudapi.com
Content-Type: application/json
X-TC-Action: DeployInferService
<公共请求参数>

{
    "ServiceMetaData": {
        "ServiceName": "hai-infer",
        "ServiceChargeType": "POSTPAID_BY_HOUR"
    },
    "ComputeInfo": {
        "ComputeResources": [
            {
                "BundleType": "96G_A*1",
                "Count": 1
            }
        ],
        "Replicas": 1
    },
    "DeploymentConfigs": [
        {
            "Container": {
                "Image": {
                    "ImageRegistryUrl": "aicompute.tencentcloudcr.com/aibench/sglang:v0.5.2rc2-hml-mooncake-0.3.6"
                },
                "Port": "30000",
                "Scripts": [
                    "bash"
                ],
                "Envs": [
                    {
                        "Name": "MODEL_DIRECTORY",
                        "Value": "/hai/model"
                    }
                ],
                "Storages": [
                    {
                        "MountPath": "/hai/model",
                        "COSStorage": {
                            "URI": "cos://hai-model-bj-1319662662/Qwen3-Embedding-8B"
                        }
                    }
                ]
            },
            "ContainerCount": 1
        }
    ]
}

输出示例

{
    "Response": {
        "ServiceId": "svc-8iia9ryo",
        "RequestId": "ced0e2a2-36e4-49fa-b86b-542befeb3629"
    }
}

5. 开发者资源

腾讯云 API 平台

腾讯云 API 平台 是综合 API 文档、错误码、API Explorer 及 SDK 等资源的统一查询平台,方便您从同一入口查询及使用腾讯云提供的所有 API 服务。

API Inspector

用户可通过 API Inspector 查看控制台每一步操作关联的 API 调用情况,并自动生成各语言版本的 API 代码,也可前往 API Explorer 进行在线调试。

SDK

云 API 3.0 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。

命令行工具

6. 错误码

以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码

错误码 描述
InternalError 内部错误。
InvalidParameterValue.InvalidChargeType 付费方式字段不符合规范
InvalidParameterValue.InvalidSubnetIdIsNone 子网ID不能为空
InvalidParameterValue.InvalidSubnetIdMalformed 子网ID格式错误
InvalidParameterValue.InvalidVpcIdIsNone VpcId不能为空
InvalidParameterValue.RegionNotSupportPublicCallInfo 该地域不支持公网访问
InvalidParameterValue.ServiceNameTooLong 服务名称过长
ResourceInsufficient.BundleInventoryShortage 指定的算力套餐库存不足