大模型训练所需资源指南

最近更新时间:2025-02-18 18:58:43

我的收藏
本文旨在介绍 TI-ONE 平台进行大模型训练时,可保障模型正常运行的配置资源,仅供您参考。
以下是平台内置开源大模型的训练推荐资源

推荐资源(SFT-FULL)
BatchSize=1,MaxSequenceLength=2048
推荐资源(SFT-LORA)
BatchSize=1,MaxSequenceLength=2048
7b以下模型
HCCPNV6 机型:3b模型以下1卡;7b/8b模型2卡;
HCCPNV6 机型:1卡
13b模型
HCCPNV6 机型:4卡
HCCPNV6 机型:1卡
32b模型
HCCPNV6 机型:8卡
HCCPNV6 机型:2卡
70b模型
HCCPNV6 机型:2机16卡
HCCPNV6 机型:4卡
DeepSeek-R1-671b/DeepSeek-V3-671b
HCCPNV6 机型:32机256卡
暂不支持
Hunyuan-large
HCCPNV6 机型:8机64卡
HCCPNV6 机型:8卡
平台内置开源大模型默认使用 LORA 的精调方式,可通过 FinetuningType 参数配置。
7b模型需要100核,500g内存单节点;13b和70b模型需要150核,1T内存单节点,更大尺寸模型建议用满整机资源。
部分模型使用 tilearn 加速技术,在推荐资源上训练能有30%左右加速效果。