训练相关
内置大模型镜像使用方式是什么,如何进行环境管理?
内置大模型镜像使用 pip 进行环境管理(不建议使用 conda 进行环境管理,可能会与镜像中的内置库发生冲突);如果需要使用 conda 进行环境管理,请使用自定义镜像。
如何在平台打印 tqdm 进度条日志?
qdm 默认的实现只有到结束才将这行完全输出,只有完全输出了日志采集组件才会采集到;因此用户可以在训练代码中,修改打印日志的代码:
self.training_bar = tqdm(total=state.max_steps, dynamic_ncols=True)
改为self.training_bar = tqdm(total=state.max_steps, dynamic_ncols=True, position=-1)
即可看到如下的日志输出样式:
TIONE 平台对日志输出的要求是什么?
要能够在 TIONE 控制台前端看到实时日志的输出,只需要将日志输出到 stdout/stderr 标准输出流,平台会按照用户输出的格式实时打印到前端控制台;若您需要将日志文件上传到 COS,则需要写到 /opt/ml/output,平台会定期上传到配置的 COS 输出路径下。
您也可以直接在任务中配置投递到 CLS 日志服务,做持久化。
大模型训练加速库 Tilearn 的安装方式和使用说明是什么?
1. 安装 TIONE 大模型训练加速库 tilearn 方式如下:
1.1 卸载老版本
pip3 uninstall -y tilearn.llm tilearn.ops
1.2 安装最新版本 llm 包:
pip3 install tilearn-llm -i https://pypi.tuna.tsinghua.edu.cn/simple or pip3 install tilearn.llm -i https://pypi.tuna.tsinghua.edu.cn/simple
1.3 安装最新版本ops包:
pip3 install tilearn.ops -i https://g-bnvx3728-pypi.pkg.coding.net/tione/tilearn/simple
2. 使用文档:tilearn-lIm tilearn-llm · PyPI
3. tilearn的使用范围:
3.1 基于
nvcr.io/nvidia/pytorch:23.07-py3
制作的自定义镜像均可使用3.2 平台镜像
tilearn-llm0.4.2-torch2.1-deepspeed0.10.0-py3.10-cuda12.1-gpu
3.3 镜像中的
torch.__version__=='2.1.0a0+b5021ba'
其他镜像需要联系加速团队。
如何写自定义策略,可以做到创建者仅可见自己的任务?
可以在自定义策略的 statement 语句中,填写如下语句,其中 resource 字段可以写需要按照创建者隔离的资源清单(以 notebook 和任务式建模为例):
{"effect": "deny","action": ["name/tione:*"],###resource字段可以写需要按创建者隔离的资源清单"resource": ["qcs::tione:ap-guangzhou:uin/<这里写主账号的uin***>:notebook/*","qcs::tione:ap-guangzhou:uin/<这里写主账号的uin***>:trainingtask/*"],"condition": {"string_not_equal": {"qcs:create_uin": "${uin}"}}}
TIONE 平台如何实现 CFS 文件系统的权限隔离?
TIONE 平台本身不支持单 CFS 文件系统的权限隔离,默认都是以 root 身份登录,建议用户使用多个独立的 CFS 实例,配置不同的可见权限来完成存储访问隔离,操作方式详情请查看文件存储-访问管理。
任务运行报 gloo 端口连不上怎么办?
当发现报 gloo 端口连不上的时候,一般原因是因为 gloo 使用了 rdma 网卡通信,需要通过 eth0 来通信,解决方式是可以通过指定 GLOO_SOCKET_IFNAME=eth0 后来解决。
子账号使用自定义策略时,如果在平台上发现使用某个功能报接口权限不足时,怎么办?
这种情况一般是因为产品迭代有新的云产品接口调用,可以按照报错的指引,在自定义策略中新增该接口权限。
使用纳管资源组(从 CVM 选择机器)创建 Notebook 时,可以使用免费存储吗?
不可以,免费存储仅支持从 TIONE 购买机器的资源组。
我配置了任务式建模的事件告警,但是收不到告警信息,是什么原因?
TIONE 里使用对象存储 COS,怎么计费?
对象存储 COS 为腾讯云的分布式存储服务,计费独立详情请参见 对象存储-计费概述,将会应用于腾讯云 TI 平台 TI-ONE 中的各个环节,包括训练数据、中间结果数据和模型文件的存放与读取等。更多信息,请参考 对象存储产品文档。