简介
TI-ONE 内置了主流的 TensorFlow、PyTorch、PySpark 等深度学习和机器学习框架,同时推出了自研训练加速框架 Angel,其中 tilearn-llm 是为大模型定制的训练加速组件,已内置在平台内置镜像中,同时支持开发机和任务式建模;此外 TI-ONE 也内置了部分内置自驾行业镜像,相关行业用户可以快速使用内置镜像构建所需模型。
内置通用镜像
框架 | 镜像名称 | 支持的训练模式 | 备注 |
PyTorch | tilearn-llm0.9-torch2.3-py3.10-cuda12.4-gpu | DDP,MPI,Ray | 支持的核心库:Python 3.10,CUDA 12.4,jupyterlab 2.3.2,torch 2.3.0a0+40ec155e58.nv24.3,transformers 4.39.3,deepspeed 0.13.4,tilearn-llm 0.9.9,tilearn.ops 0.2.2.175,angel-vllm 0.4.2,ray 2.42.0 支持的卡型:PNV6,H100,H800,PNV5b,L40,A100,A800,A10,V100,T4 支持的模块:任务式建模和开发机 |
| tilearn-llm0.9-torch2.1-py3.10-cuda12.1-gpu | DDP | 支持的核心库:Python 3.10,CUDA 12.1,jupyterlab 2.3.2,torch 2.1.2,transformers 4.39.3,deepspeed 0.14.0,tilearn-llm 0.9.3.3,tilearn.ops 0.2.1.172,angel-vllm 0.3.4 支持的卡型:H100,H800,PNV5b,L40,A100,A800,A10,V100,T4 支持的模块:任务式建模和开发机 |
| tilearn-llm0.8-torch2.1-py3.10-cuda12.1-gpu | DDP | 支持的核心库:Python 3.10,CUDA 12.1,jupyterlab 2.3.2,torch 2.1.0a0+b5021ba,transformers 4.31.0,deepspeed 0.10.0,tilearn-llm 0.8.3,tilearn.ops 0.2.0.1 支持的卡型:H100,H800,PNV5b,L40,A100,A800,A10,V100,T4 支持的模块:任务式建模和开发机 |
| ti-acc2.5-torch1.9-py3.8-cuda11.1-gpu | DDP | 支持的核心库:Python 3.8,CUDA 11.1,torch 1.9.0+cu111,tiacc-training.torch 2.5.1.dev13 支持的卡型:A100,A10,V100,T4 支持的模块:任务式建模 |
| torch1.9-py3.8-cuda11.1-gpu | DDP,MPI,Horovod | 支持的核心库:Python 3.8,CUDA 11.1,torch 1.9.0+cu111 支持的卡型:A100,A10,V100,T4 支持的模块:任务式建模 |
| ti-acc2.5-torch1.12-tf1.15-tf2.4-pyspark2.4.5-py3.8-cuda11.3-gpu | - | 支持的核心库:jupyterlab 3.6.1,多个 conda 环境,包括: pyspark:Python 3.7,spark-2.4.5-bin-hadoop2.7 pyspark3:Python 3.8,spark-3.3.1-bin-hadoop3 pytorch_py3:Python 3.8,CUDA 11.1,torch 1.9.0+cu111 tiacc_pytorch_py3:Python 3.8,CUDA 11.1,torch 1.12.1+cu113,tiacc-training.torch 2.5.1.dev10 tf_py3:Python 3.7,CUDA 10.0,tensorflow-gpu 1.15.0 - tiacc_tf_py3:Python 3.7,CUDA 10.0,tensorflow-gpu 1.15.0 tf2_py3:Python 3.8,CUDA 11.0,tensorflow 2.4.0 支持的卡型:V100,T4,部分 kernel 支持 A100/A10 支持的模块:开发机 |
TensorFlow | ti-acc1.0-tf1.15-py3.6-cuda10.0-gpu | PS-Worker | - |
| tf1.15-py3.7-cpu | PS-Worker,MPI,Horovod | - |
| tf1.15-py3.7-cuda10.0-gpu | | |
| tf2.4-py3.8-cpu | | |
| tf2.4-py3.8-cuda11.1-gpu | | |
Spark | spark2.4.5-cpu | Spark | - |
PySpark | spark2.4.5-py3.6-cpu | Spark | - |
其他 | py3.8-cpu | - | 包含 Miniforge3,jupyterlab 4.3,tensorboard 2.18.0,Python 3.8 conda 环境 支持的模块:开发机 |
| py3.10-cpu | - | 包含 Miniforge3,jupyterlab 4.3,tensorboard 2.18.0,Python 3.10 conda 环境 支持的模块:开发机 |
内置自驾行业镜像
镜像名称 | 支持的训练模式 | 备注 |
ubuntu22.04-miniforge3-cu124-py38-torch2.4-mmcv1.7.2-bevformer | DDP,MPI | 核心库:CUDA 12.4,miniforge3,jupyterlab 4.3.6,jupyterlab-tensorboard-pro 4.0.0 conda 环境: py38:python3.8,torch 2.4.1+cu124,mmcv-full 1.7.2,mmdet 2.26.0,mmsegmentation 0.30.0,mmengine 0.10.3,mmdet3d 0.17.1,tilearn-llm 1.0.3.1 适用的模型:BEVFormer,进入镜像的 /examples 目录获取代码示例 支持的卡型:PNV6,HCCPNV6,H100,H800,PNV5b,L40,A100,A800,A10,V100,T4 支持的模块:任务式建模和开发机 |
ubuntu22.04-miniforge3-cu124-py38-torch2.4-mmcv1.7.2-vrdma-bevformer | DDP,MPI | 核心库:CUDA 12.4,miniforge3,jupyterlab 4.3.6,jupyterlab-tensorboard-pro 4.0.0 conda 环境: py38:python3.8,torch 2.4.1+cu124,mmcv-full 1.7.2,mmdet 2.26.0,mmsegmentation 0.30.0,mmengine 0.10.3,mmdet3d 0.17.1,tilearn-llm 1.0.3.1 适用的模型:BEVFormer,进入镜像的 /examples 目录获取代码示例 支持的卡型:HCCPNV6e 支持的模块:任务式建模(仅支持使用 vrdma 机型) |
ubuntu22.04-miniforge3-cu124-py38-torch2.4-mmcv1.7.2-bevfusion-fastbev-maptr | DDP,MPI | 核心库:CUDA 12.4,miniforge3,jupyterlab 4.3.6,jupyterlab-tensorboard-pro 4.0.0 conda 环境: py38:python3.8,torch 2.4.1+cu124,mmcv-full 1.7.2,mmdet 2.26.0,mmsegmentation 0.30.0,mmengine 0.10.3,tilearn-llm 1.0.3.1,torchpack 0.3.1,flash-attn 0.2.0,mpi4py 4.0.3, av2 0.1 适用的模型:FastBEV,BEVFusion,MapTR,进入镜像的 /examples 目录获取代码示例 支持的卡型:PNV6,HCCPNV6,H100,H800,PNV5b,L40,A100,A800,A10,V100,T4 支持的模块:任务式建模和开发机 |
ubuntu22.04-miniforge3-cu124-py38-torch2.4-mmcv1.7.2-panoocc | DDP,MPI | 核心库:CUDA 12.4,miniforge3,jupyterlab 4.3.6,jupyterlab-tensorboard-pro 4.0.0 conda 环境: py38:python3.8,torch 2.4.1+cu124,mmcv-full 1.7.2,mmdet 2.26.0,mmsegmentation 0.30.0,mmengine 0.10.3,tilearn-llm 1.0.3.1,mmdet3d(0.17.1,PanoOcc 修改版),timm 1.0.15, einops 0.8.1,simplejson 3.20.1,ipdb 0.13.13,einops 0.8.1,torch-scatter+cu124,cumm(github 开源 0.7.13 + cu124 编译安装)、spconv(github 开源 2.3.8 + cu124 编译安装),ops(1.0,PanoOcc 修改版) 适用的模型:PanoOcc,进入镜像的 /examples 目录获取代码示例 支持的卡型:PNV6,HCCPNV6,H100,H800,PNV5b,L40,A100,A800,A10,V100,T4 支持的模块:任务式建模和开发机 |
ubuntu22.04-miniforge3-cu124-py38-torch2.4-mmcv1.7.2-sparse4d | DDP,MPI | 核心库:CUDA 12.4,miniforge3,jupyterlab 4.3.6,jupyterlab-tensorboard-pro 4.0.0 conda 环境: py38(通用):python3.8,torch 2.4.1+cu124,mmcv-full 1.7.2,mmdet 2.26.0,mmsegmentation 0.30.0,mmengine 0.10.3,tilearn-llm 1.0.3.1,mmdet3d(github 开源 0.17.2),numba 0.48.0,numpy 1.19.5,nuscenes-devkit 1.1.9,motmetrics 1.1.3,tensorboard 2.6.0,torchmetrics 0.5.0,protobuf 3.20.*,ops(0.0.0,Sparse4D 修改版) 适用的模型:Sparse4D,进入镜像的 /examples 目录获取代码示例 支持的卡型:PNV6,HCCPNV6,H100,H800,PNV5b,L40,A100,A800,A10,V100,T4 支持的模块:任务式建模和开发机 |
ubuntu22.04-miniforge3-cu124-py38-torch2.4-mmcv1.7.2-vrdma-sparse4d | DDP,MPI | 核心库:CUDA 12.4,miniforge3,jupyterlab 4.3.6,jupyterlab-tensorboard-pro 4.0.0 conda 环境: py38(通用):python3.8,torch 2.4.1+cu124,mmcv-full 1.7.2,mmdet 2.26.0,mmsegmentation 0.30.0,mmengine 0.10.3,tilearn-llm 1.0.3.1,mmdet3d(github开源 0.17.2),numba 0.48.0,numpy 1.19.5,nuscenes-devkit 1.1.9,motmetrics 1.1.3,tensorboard 2.6.0,torchmetrics 0.5.0,protobuf 3.20.*,ops(0.0.0,Sparse4D 修改版) 适用的模型:Sparse4D,进入镜像的 /examples 目录获取代码示例 支持的卡型:HCCPNV6e 支持的模块:任务式建模(仅支持使用 vrdma 机型) |
ubuntu22.04-miniforge3-cu124-py38-torch2.4-mmcv1.7.2-uniad | DDP,MPI | 核心库:CUDA 12.4,miniforge3,jupyterlab 4.3.6,jupyterlab-tensorboard-pro 4.0.0 conda 环境: py38(通用):python3.8,torch 2.4.1+cu124,mmcv-full 1.7.2,mmdet 2.26.0,mmsegmentation 0.30.0,mmengine 0.10.3,tilearn-llm 1.0.3.1,mmdet3d(github开源 0.17.1),scipy 1.7.3,scikit-image 0.19.3,google-cloud-bigquery 3.30.0,motmetrics 1.1.3,einops 0.4.1,numpy 1.19.5,casadi 3.5.5,pytorch-lightning 1.2.5 适用的模型:UniAD,进入镜像的 /examples 目录获取代码示例 支持的卡型:PNV6,HCCPNV6,H100,H800,PNV5b,L40,A100,A800,A10,V100,T4 支持的模块:任务式建模和开发机 |
ubuntu22.04-miniforge3-cu124-py38-torch2.4-hivt | DDP,MPI | 核心库:CUDA 12.4,miniforge3,jupyterlab 4.3.6,jupyterlab-tensorboard-pro 4.0.0 conda 环境: py38:python3.8,torch 2.4.1+cu124,pytorch-lightning 1.9.5,torch-geometric 2.6.1,argoverse 1.1.0,tilearn-llm 1.0.3.1 适用的模型:HiVT,进入镜像的 /examples 目录获取代码示例 支持的卡型:PNV6,HCCPNV6,H100,H800,PNV5b,L40,A100,A800,A10,V100,T4 支持的模块:任务式建模和开发机 |