1. 接口描述
接口请求域名: tione.tencentcloudapi.com 。
创建模型训练任务
默认接口请求频率限制:20次/秒。
推荐使用 API Explorer
点击调试
API Explorer 提供了在线调用、签名验证、SDK 代码生成和快速检索接口等能力。您可查看每次调用的请求内容和返回结果以及自动生成 SDK 调用示例。
2. 输入参数
以下请求参数列表仅列出了接口请求参数和部分公共参数,完整公共参数列表见 公共请求参数。
参数名称 | 必选 | 类型 | 描述 |
---|---|---|---|
Action | 是 | String | 公共参数,本接口取值:CreateTrainingTask。 |
Version | 是 | String | 公共参数,本接口取值:2021-11-11。 |
Region | 是 | String | 公共参数,详见产品支持的 地域列表。 |
Name | 是 | String | 训练任务名称,不超过60个字符,仅支持中英文、数字、下划线"_"、短横"-",只能以中英文、数字开头 示例值:TaskName |
ChargeType | 是 | String | 计费模式,eg:PREPAID 包年包月(资源组); POSTPAID_BY_HOUR 按量计费 示例值:PREPAID |
ResourceConfigInfos.N | 是 | Array of ResourceConfigInfo | 资源配置,需填写对应算力规格ID和节点数量,算力规格ID查询接口为DescribeBillingSpecsPrice,eg:[{"Role":"WORKER", "InstanceType": "TI.S.MEDIUM.POST", "InstanceNum": 1}] |
FrameworkName | 否 | String | 训练框架名称,通过DescribeTrainingFrameworks接口查询,eg:SPARK、PYSPARK、TENSORFLOW、PYTORCH 示例值:TENSORFLOW |
FrameworkVersion | 否 | String | 训练框架版本,通过DescribeTrainingFrameworks接口查询,eg:1.15、1.9 示例值:1.15 |
FrameworkEnvironment | 否 | String | 训练框架环境,通过DescribeTrainingFrameworks接口查询,eg:tf1.15-py3.7-cpu、torch1.9-py3.8-cuda11.1-gpu 示例值:tf1.15-py3.7-cpu |
ResourceGroupId | 否 | String | 预付费专用资源组ID,通过DescribeBillingResourceGroups接口查询 示例值:rsg-1368bcxs |
Tags.N | 否 | Array of Tag | 标签配置 |
ImageInfo | 否 | ImageInfo | 自定义镜像信息 |
CodePackagePath | 否 | CosPathInfo | COS代码包路径 |
StartCmdInfo | 否 | StartCmdInfo | 任务的启动命令,按任务训练模式输入,如遇特殊字符导致配置失败,可使用EncodedStartCmdInfo参数 |
TrainingMode | 否 | String | 训练模式,通过DescribeTrainingFrameworks接口查询,eg:PS_WORKER、DDP、MPI、HOROVOD 示例值:PS_WORKER |
DataConfigs.N | 否 | Array of DataConfig | 数据配置,依赖DataSource字段,数量不超过10个 |
VpcId | 否 | String | VPC Id 示例值:vpc-xxxxx |
SubnetId | 否 | String | 子网Id 示例值:subnet-xxxx |
Output | 否 | CosPathInfo | COS训练输出路径 |
LogConfig | 否 | LogConfig | CLS日志配置 |
TuningParameters | 否 | String | 调优参数,不超过2048个字符 示例值:{"TrainMode":"DDP"} |
LogEnable | 否 | Boolean | 是否上报日志 示例值:true |
Remark | 否 | String | 备注,不超过1024个字符 示例值:"Remark" |
DataSource | 否 | String | 数据来源,eg:DATASET、COS、CFS、CFSTurbo、HDFS、GooseFSx 示例值:DATASET |
CallbackUrl | 否 | String | 回调地址,用于创建/启动/停止训练任务的异步回调。回调格式&内容详见:[TI-ONE接口回调说明] 示例值:http://callback.url |
EncodedStartCmdInfo | 否 | EncodedStartCmdInfo | 编码后的任务启动命令,与StartCmdInfo同时配置时,仅当前参数生效 |
CodeRepos.N | 否 | Array of CodeRepoConfig | 代码仓库配置 |
3. 输出参数
参数名称 | 类型 | 描述 |
---|---|---|
Id | String | 训练任务ID 示例值:train-13766824497408 |
RequestId | String | 唯一请求 ID,由服务端生成,每次请求都会返回(若请求因其他原因未能抵达服务端,则该次请求不会获得 RequestId)。定位问题时需要提供该次请求的 RequestId。 |
4. 示例
示例1 创建训练任务
创建训练任务
输入示例
POST / HTTP/1.1
Host: tione.tencentcloudapi.com
Content-Type: application/json
X-TC-Action: CreateTrainingTask
<公共请求参数>
{
"Name": "zhangsan-lora",
"FrameworkName": "PYTORCH",
"FrameworkEnvironment": "tilearn-llm1.0-torch2.1-angel-vllm1.0-py3.10-cuda12.1-gpu",
"TrainingMode": "DDP",
"ChargeType": "PREPAID",
"ResourceConfigInfos": [
{
"Role": "WORKER",
"Cpu": 1000,
"Memory": 1024,
"GpuType": "",
"Gpu": 0,
"InstanceType": "",
"InstanceTypeAlias": "",
"InstanceNum": 1
}
],
"ResourceGroupId": "ersg-rf6p8zb8",
"Tags": [],
"Remark": "",
"CodePackagePath": {
"Bucket": "test-gz-1256580188",
"Region": "ap-guangzhou",
"Paths": [
"test/"
]
},
"EncodedStartCmdInfo": {
"StartCmdInfo": "eyJTdGFydENtZCI6IiIsIlBzU3RhcnRDbWQiOiIiLCJXb3JrZXJTdGFydENtZCI6InNsZWVwIDEwIn0="
},
"DataConfigs": [
{
"DataSourceType": "CFS",
"MappingPath": "/opt/ml/input/data/",
"CFSSource": {
"Id": "cfs-pchxhlg9",
"Path": "/bin"
}
}
],
"TuningParameters": "{\"test\":\"test\"}",
"Output": {
"Bucket": "test-gz-1256580188",
"Region": "ap-guangzhou",
"Paths": [
"cos_test/"
]
},
"LogEnable": false,
"VpcId": "vpc-a26qv3af",
"SubnetId": "subnet-m7xhqcyc"
}
输出示例
{
"Response": {
"Id": "train-1208038387393233920",
"RequestId": "0161f5a9-3f60-4e39-86ab-fb87b225964d"
}
}
5. 开发者资源
腾讯云 API 平台
腾讯云 API 平台 是综合 API 文档、错误码、API Explorer 及 SDK 等资源的统一查询平台,方便您从同一入口查询及使用腾讯云提供的所有 API 服务。
API Inspector
用户可通过 API Inspector 查看控制台每一步操作关联的 API 调用情况,并自动生成各语言版本的 API 代码,也可前往 API Explorer 进行在线调试。
SDK
云 API 3.0 提供了配套的开发工具集(SDK),支持多种编程语言,能更方便的调用 API。
- Tencent Cloud SDK 3.0 for Python: GitHub, Gitee
- Tencent Cloud SDK 3.0 for Java: GitHub, Gitee
- Tencent Cloud SDK 3.0 for PHP: GitHub, Gitee
- Tencent Cloud SDK 3.0 for Go: GitHub, Gitee
- Tencent Cloud SDK 3.0 for Node.js: GitHub, Gitee
- Tencent Cloud SDK 3.0 for .NET: GitHub, Gitee
- Tencent Cloud SDK 3.0 for C++: GitHub, Gitee
- Tencent Cloud SDK 3.0 for Ruby: GitHub, Gitee
命令行工具
6. 错误码
以下仅列出了接口业务逻辑相关的错误码,其他错误码详见 公共错误码。
错误码 | 描述 |
---|---|
FailedOperation | 操作失败。 |
FailedOperation.DuplicateNameTaskIsCreating | 训练任务名称已存在,请更换名称 |
FailedOperation.FreezeBillFailed | 余额不足冻结失败。 |
FailedOperation.QueryResourceSpecFailed | 查询计费项详情失败。 |
InternalError | 内部错误。 |
InternalError.BindingTagsFailed | 绑定标签失败 |
InternalError.CFSNotFound | 文件系统不存在 |
InternalError.CheckFSPathAccessibilityFailed | 校验文件系统路径权限失败 |
InternalError.CreateTcrInstanceTokenFailed | 创建TCR镜像仓库长期访问凭证失败 |
InternalError.GetCFSFileSystemsFailed | 查询文件系统信息失败 |
InternalError.GetCFSMountInfoFailed | 查询文件系统挂载信息失败。 |
InternalError.QueryHDFSInfoFailed | 获取HDFS存储信息失败。 |
InternalError.QueryResourceGroupFailed | 查询预付费资源组详情失败。 |
InternalError.QueryResourceSpecFailed | 查询资源套餐规格失败 |
InternalError.QuerySubnetInfoFailed | 查询子网信息失败。 |
InternalError.QueryVPCInfoFailed | 查询vpc信息失败 |
InternalError.ValidateCreateTaskFailed | 校验任务参数失败 |
InvalidParameter | 参数错误。 |
InvalidParameterValue | 参数取值错误。 |
InvalidParameterValue.AIMarketOutputConfigEmpty | 当前任务选择了平台CFS的内置代码,且未正确配置/opt/ml/output/data输出路径,任务无法提交 |
InvalidParameterValue.AIMarketPublicAlgoVersionNotExist | AI市场公共算法版本Id不存在 |
InvalidParameterValue.BackOffLimitIllegal | 无效的自动重启次数 |
InvalidParameterValue.BackOffLimitNotSupport | 该任务不支持自动重启 |
InvalidParameterValue.CosPathNotExist | COS路径不存在 |
InvalidParameterValue.DatasetNumLimitExceeded | 数据集数量超过限制。 |
InvalidParameterValue.DuplicateName | 实例名称冲突,请更换名称后重试。 |
InvalidParameterValue.FSPathInaccessible | 文件系统路径访问权限受限 |
InvalidParameterValue.FrameworkVersionNotSupport | 训练框架对应的版本不支持,请阅读文档查看TIONE目前支持的框架和版本。 |
InvalidParameterValue.GetCFSMountIPFailed | 获取CFS的挂载IP失败 |
InvalidParameterValue.GetGooseFSFailed | 获取GooseFS实例失败 |
InvalidParameterValue.GooseFSNotExist | 所选的GooseFS实例不存在 |
InvalidParameterValue.ImageIllegal | 镜像地址不合法 |
InvalidParameterValue.ImageNotFound | 训练任务镜像不存在。 |
InvalidParameterValue.NotAllow | 操作不允许。 |
InvalidParameterValue.ParamLengthExceedLimit | 参数长度超过限制 |
InvalidParameterValue.PathIllegal | 本地盘路径不合法 |
InvalidParameterValue.QueryVPCInfoFailed | 查询vpc信息失败 |
InvalidParameterValue.RDMAConfigIllegal | RDMA配置不合法 |
InvalidParameterValue.ResourceConfigIllegal | 资源配置不合法 |
InvalidParameterValue.TAIJIResourceConfigIllegal | 创建精调任务失败,请按照模版推荐资源进行配置。 |
InvalidParameterValue.UnsupportedDataConfig | 裸金属类型资源组不支持配置输入数据 |
MissingParameter | 缺少参数错误。 |
OperationDenied.BalanceInsufficient | 余额不足,创建/更新失败。 |
OperationDenied.BillingException | 计费平台出错 |
OperationDenied.BillingStatusResourceInsufficient | 按量计费资源售罄。 |
OperationDenied.IpIllegal | IP不合法。 |
OperationDenied.MIYINGBalanceInsufficient | 觅影资源包余额不足,请先充值。 |
OperationDenied.NetworkCidrIllegal | 网段不合法。 |
OperationDenied.NotAllow | 操作不允许 |
OperationDenied.ResourceGroupInsufficient | 预付费资源组余量不足。 |
OperationDenied.SubnetIllegal | 子网不合法。 |
OperationDenied.TAIJIApplicationGroupInsufficient | 太极应用组存量资源不足,不满足训练要求 |
OperationDenied.WhitelistQuotaExceed | 白名单免费配额不足。 |
ResourceNotFound.CfsNotFound | 文件系统不存在 |
ResourceNotFound.VPCNotFound | vpc不存在 |
UnknownParameter | 未知参数错误。 |