总览
为了帮助用户快速使用平台完成自驾行业模型训练全流程,腾讯云 TI-ONE 平台已完成并且计划逐步新增内置多个主流自驾行业常用模型所需的镜像和示例代码,从而使得算法用户可以快速基于已有的环境进行算法实验和构建模型。在实际平台使用中,用户可以通过内置镜像或者自定义镜像提交训练任务,为此,本文将阐述以下两种使用流程:
使用内置自驾镜像和示例代码快速训练模型
基于内置自驾镜像构建自定义环境训练模型
前置准备条件
在进行以上两种操作流程前,您都需要完成以下前置准备条件:
1. 您需要按照 配置账号和权限指引完成账号和权限的开通
使用内置自驾镜像和示例代码快速训练模型
步骤一:创建开发机
进入 训练工坊 > 开发机,单击新建开发机:
名称:您可以自定义。
镜像:选择 内置自驾行业镜像 > ubuntu22.04-miniforge3-cu124-py38-torch2.4-mmcv1.7.2-bevformer,该镜像已内置了运行 BEVFormer 模型所需的环境,同时也已内置了适配的训练代码,可以直接进入镜像的
/examples
目录里获取。资源组:选择您已经创建的资源组,建议配置资源为单机 PNV6 机型8卡。
存储路径:推荐使用 CFS Turbo 类型或者 GooseFSx,容器挂载路径为默认挂载路径
/home/tione/notebook
。

步骤二:在开发机内调试代码
1. 创建完成后,在开发机列表页等待状态为 运行中 后,单击操作栏 > 打开,选择 VSCode 编辑器,进入开发机。

2. 进入开发机后,cd 到
/examples
目录下,查看内置的代码,可以看到在该目录下有 /BEVFormer
,这个目录下即存放着可以运行 BEVFormer 模型的示例代码。
3. 运行
cp -r /examples/BEVFormer/ /home/tione/notebook/
将 /examples
目录下的代码拷贝至当前CFS挂载的容器路径 /home/tione/notebook
4. 在实际运行代码前,建议先查看 README_tione.md 文档,该文档将指引您在 TIONE 中跑通 BEVFormer 模型训练过程。

5. 关于数据集和模型
nuScenes 全量数据集文件较大,可在 README_tione 文档中获取官方下载地址。
BEVFormer 模型有多种预训练 backbone,这里选择其中的 R101-DCN backbone 算法作为示例。
6. 在训练开始前,需要进行数据准备,通过运行文档中的3. 数据预处理步骤,生成用于训练的标注文件。



7. 通过修改训练配置文件中的输入输出路径等参数,按照指引在开发机中启动训练任务.

提交训练任务后可以持续观察到日志输出,如下所示:

默认配置的训练时长较长(samples_per_gpu=1,epoch=24),若需要提高训练速度,可以适当调大 samples_per_gpu,同时观察实例显存监控数据,如下图所示:

步骤三:在任务式建模提交多机任务
使用任务式建模提交多机任务和在开发机中单机训练启动参数是一致的,无需改动,此时提交训练任务时仅需要将 BEVFormer 路径配置到和开发机相同的容器挂载路径
/home/tione/notebook
中即可。
启动命令如下所示:

训练启动后可以看到监控数据和日志:

基于内置自驾镜像构建自定义环境训练模型
上述文档中描述了如何使用平台内置镜像和示例代码运行训练任务,若您在实际开发中发现平台内置的镜像不满足您的需求,您可以按照如下步骤进行自定义:
步骤一:保存开发机环境
您可以在开发机环境中修改配置环境,修改完成后单击保存镜像,即可将您的个人开发环境保存为自定义镜像。


步骤二:使用自定义镜像启动开发机或者任务式建模
开发机和任务式建模均支持通过自定义镜像启动,若您在步骤一中完成了镜像保存,即可以在创建开发机或者任务式建模过程中选择自定义镜像,挂载代码包,和上述内置镜像章节的使用流程一致。

