Notebook 常见问题
Notebook 有什么限制?
Notebook 当前仅支持单节点调度,默认系统存储空间有限。大文件请存放在共享存储(例如: CFS 等)挂载目录。
Notebook 运行中状态异常,提示出现"Evicted",怎么解决?
Notebook 实例运行过程中退出,状态列显示异常,提示信息出现“Evicted”。请查看事件,最新几条事件如果有“The node was low on resource. ephemeral-storage”信息,说明当前实例系统存储不足。请新建 Notebook 实例,使用 CFS 等共享存储挂载目录,存放大文件,避免大量占用系统目录导致异常。
Notebook 系统盘分区写满了导致容器被驱除,该怎么办?
可以配置磁盘分区利用率告警,这样在磁盘写满之前收到告警,及时清理文件。
配置参考:
1. 登录 腾讯云可观测平台,选择告警配置,单击新建策略。
2. 配置告警策略:
监控类型 选择 云产品监控
策略类型 选择 腾讯云TI平台 TI-ONE/NoteBook/Notebook实例
告警对象 选择 全部对象
触发条件 选择 磁盘分区利用率
3. 配置通知模版
此处可以选择已有的通知模版,如果之前没有配置过, 可以选择【新建模版】。
可以按照您的需求,配置电话,企业微信群等告警通知渠道。
4. 完成之后,则可以收到磁盘分区利用率告警通知。
Notebook 中下载慢,怎么解决?
Notebook 主动访问外网的教育网、海外资源建议做如下优化调整:
1. pip 安装教育网带 edu 域名的仓库依赖库,推荐改为腾讯云 pip 仓库, 例如:
pip3 install tqdm -i https://mirrors.cloud.tencent.com/pypi/simple
。2. 海外资源,推荐使用海外地域 CVM 下载,上传至 Notebook 相同地域的 COS,然后在 Notebook 下载 cos 资源链接。
Notebook 启动后状态异常,怎么定位、解决?
可检查 Notebook 的事件和日志,查看具体错误信息,根据提示解决。如有疑问,可提供截图,异常事件和日志,提交工单处理。
如何在 Notebook 中访问 EMR 资源?
访问 EMR 资源,具体操作如下:
1. 在 EMR 产品控制台,确认 EMR 集群已经安装 livy 组件,获取 EMR 集群内网访问地址。
2. 新建 Notebook,确认 VPC 和 EMR 集群 VPC 一致, 镜像选择支持 spark 的镜像,例如:ti-acc2.0-torch1.12-tf1.15-tf2.4-pyspark2.4.5-py3.8-cuda11.3-gpu。
3. 打开 Notebook,进入终端(Terminal), 编辑 sparkmagic 配置文件, 将 url 配置项值 localhost 修改为 EMR 集群内网访问地址后,保存。
# vim .sparkmagic/config.json... ..."kernel_python_credentials" : {"username": "","password": "","url": "http://localhost:8998","auth": "None"},"kernel_scala_credentials" : {"username": "","password": "","url": "http://localhost:8998","auth": "None"},"kernel_r_credentials": {"username": "","password": "","url": "http://localhost:8998"},... ...
4. 打开 SparkMagic,即可提交 spark 任务访问 EMR 资源。详情参考 sparkmagic文档。
使用从 CVM 选择机器的资源组创建 Notebook 时,可以使用免费存储吗?
不可以,免费存储仅支持从 TIONE 购买机器的资源组。
训练常见问题
内置大模型镜像使用方式是什么,如何进行环境管理?
内置大模型镜像使用 pip 进行环境管理(不建议使用 conda 进行环境管理,可能会与镜像中的内置库发生冲突)。
如果需要使用 conda 进行环境管理,请使用自定义镜像。
如何在平台打印 tqdm 进度条日志?
Python 中 tqdm 模块默认只有到行结束才将这行完全输出,需要完全输出了行日志采集组件才能采集成功;因此用户可以在训练代码中,修改打印日志的代码:
self.training_bar = tqdm(total=state.max_steps, dynamic_ncols=True)
改为
self.training_bar = tqdm(total=state.max_steps, dynamic_ncols=True, position=-1)
即可看到如下的日志输出效果:
TIONE 平台对日志输出的要求是什么?
在 TIONE 控制台前端能看到实时日志的输出,需要将日志输出到 stdout/stderr 标准输出流,平台会按照用户输出的格式实时打印到前端控制台;若您需要将日志文件上传到 COS,则需要将日志写到 /opt/ml/output目录,平台会定期上传到配置的 COS 输出路径下。
您也可以在任务中配置投递到 CLS 日志服务,满足日志长期存储需求。
大模型训练加速库 Tilearn 的安装方式和使用说明是什么?
1. 安装 TIONE 大模型训练加速库 tilearn 方式如下:
1.1 卸载老版本
pip3 uninstall -y tilearn.llm tilearn.ops
1.2 安装最新版本 llm 包:
pip3 install tilearn-llm -i https://mirrors.cloud.tencent.com/pypi/simple
或 pip3 install tilearn.llm -i https://mirrors.cloud.tencent.com/pypi/simple
1.3 安装最新版本ops包:
pip3 install tilearn.ops -i https://g-bnvx3728-pypi.pkg.coding.net/tione/tilearn/simple
2. 使用文档:tilearn-lIm tilearn-llm · PyPI
3. tilearn 的使用范围:
3.1 基于
nvcr.io/nvidia/pytorch:23.07-py3
制作的自定义镜像均可使用3.2 平台镜像
tilearn-llm0.4.2-torch2.1-deepspeed0.10.0-py3.10-cuda12.1-gpu
3.3 镜像中的
torch.__version__=='2.1.0a0+b5021ba'
其他镜像需提工单,联系加速团队处理。
如何编写 CAM 自定义策略,实现创建者仅可见自己的任务?
{"effect": "deny","action": ["tione:*"],###resource字段可以写需要按创建者隔离的资源清单"resource": ["qcs::tione:ap-guangzhou:uin/<这里写主账号的uin***>:notebook/*","qcs::tione:ap-guangzhou:uin/<这里写主账号的uin***>:trainingtask/*"],"condition": {"string_not_equal": {"qcs:create_uin": "${uin}"}}}
TIONE 平台如何实现 CFS 文件系统的权限隔离?
TIONE 平台本身不支持单 CFS 文件系统的权限隔离,默认都是以 root 身份登录,建议用户使用多个独立的 CFS 实例,配置不同的可见权限来完成存储访问隔离,操作方式详情请查看各场景使用 CFS 文件系统的指引。
任务运行报 gloo 端口连不上怎么办?
当发现报 gloo 端口连不上的时候,一般原因是因为 gloo 使用了 rdma 网卡通信,需要通过 eth0 来通信,解决方式是可以通过指定 GLOO_SOCKET_IFNAME=eth0 后来解决。
子账号使用自定义策略时,如果在平台上发现使用某个功能报接口权限不足时,怎么办?
这种情况一般是因为产品迭代有新的云产品接口调用,可以按照报错的指引,在自定义策略中新增该接口权限。
配置了任务式建模的事件告警,但是收不到告警信息,是什么原因?
模型服务常见问题
在线服务启动后状态异常,怎么解决?
可检查任务的事件和日志,查看具体错误信息,根据提示解决。
常见问题:
1. 资源不足,例如:新建任务的资源超过资源组中单节点最大可用的资源。
2. 服务问题,例如:在线服务启动失败,或服务未监听默认8501端口。
如有疑问,可提供截图,异常事件和日志,提交工单处理。
在线服务更新没生效,怎么解决?
在线服务挂载的模型,存在哪个路径?
在线服务的模型默认挂载目录为 /data/model/ 目录。
如何配置在线服务调用的 VPC?
您可以在在线服务列表页,点击服务名称,进入服务详情页,切换至服务调用, 其中高速服务调用中点击新增高速服务调用网段可以配置私有 VPC。
如何配置在线服务的日志告警?
可以在启动服务时选择日志投递到 CLS,在 CLS 产品控制台配置日志分析和告警。
在线服务为什么无法删除?
请检查您的在线服务实例是否停止。可以进入服务详情页,切换至实例列表,停止所有实例后再删除。
在 CVM 机器为什么访问不了在线服务?
部署大模型在线服务时,如何选择合适的资源大小?
TI-ONE 平台对部分主流大模型都有给出推荐资源大小,您可以在大模型精调页面,选择对应的大模型卡片,在详情页查看推荐的资源。
部署大模型在线服务,调用接口是否支持流式调用?
目前 TI-ONE 平台如下几种方式部署的大模型在线服务,调用接口均支持流调用:
1. 新建在线服务, 运行环境选择:内置/LLM 类目下的环境。
2. 内置大模型,可以参考官网文档: TI-ONE 内置大模型推理镜像使用说明。
3. 基于 TensorRT-LLM 框架部署的在线服务,可参考官网文档: 使用 TensorRT-LLM 与 Triton Inference Server 部署大语言模型最佳实践。
4. 自定义运行环境,用户自定义推理框架已支持流式调用。
在线服务配置的HPA策略为什么没生效?
计费常见问题
TIONE 平台中使用对象存储 COS,怎么计费?
对象存储 COS 为腾讯云的分布式存储服务,计费独立详情请参见 对象存储-计费概述,将会应用于腾讯云 TI 平台 TI-ONE 中的各个环节,包括训练数据、中间结果数据和模型文件的存放与读取等。更多信息,请参考 对象存储产品文档。