TI-ONE 训练平台常见问题-文档中心-腾讯云

Notebook 常见问题
Notebook 有什么限制？
Notebook 当前仅支持单节点调度，默认系统存储空间有限。大文件请存放在共享存储(例如: CFS 等)挂载目录。
Notebook 运行中状态异常，提示出现"Evicted"，怎么解决？
Notebook 实例运行过程中退出，状态列显示异常，提示信息出现“Evicted”。请查看事件，最新几条事件如果有“The node was low on resource. ephemeral-storage”信息，说明当前实例系统存储不足。请新建 Notebook 实例，使用 CFS 等共享存储挂载目录，存放大文件，避免大量占用系统目录导致异常。
Notebook 系统盘分区写满了导致容器被驱除，该怎么办？
可以配置磁盘分区利用率告警，这样在磁盘写满之前收到告警，及时清理文件。
配置参考：
1. 登录 腾讯云可观测平台，选择告警配置，单击新建策略。
﻿
﻿
﻿
2. 配置告警策略：
监控类型 选择 云产品监控
策略类型 选择 腾讯云TI平台 TI-ONE/NoteBook/Notebook实例
告警对象 选择 全部对象
触发条件 选择 磁盘分区利用率
﻿
﻿
﻿
3.   配置通知模版
 此处可以选择已有的通知模版，如果之前没有配置过， 可以选择【新建模版】。
 可以按照您的需求，配置电话，企业微信群等告警通知渠道。
﻿
﻿
﻿
4. 完成之后，则可以收到磁盘分区利用率告警通知。
﻿
﻿
﻿
Notebook 中下载慢，怎么解决？
Notebook 主动访问外网的教育网、海外资源建议做如下优化调整：
1. pip 安装教育网带 edu 域名的仓库依赖库，推荐改为腾讯云 pip 仓库, 例如： pip3 install tqdm -i https://mirrors.cloud.tencent.com/pypi/simple。
2. 海外资源，推荐使用海外地域 CVM 下载，上传至 Notebook 相同地域的 COS，然后在 Notebook 下载 cos 资源链接。
Notebook 启动后状态异常，怎么定位、解决?
可检查 Notebook 的事件和日志，查看具体错误信息，根据提示解决。如有疑问，可提供截图，异常事件和日志，提交工单处理。
如何在 Notebook 中访问 EMR 资源？
访问 EMR 资源，具体操作如下：
1. 在 EMR 产品控制台，确认 EMR 集群已经安装 livy 组件，获取 EMR 集群内网访问地址。
2. 新建 Notebook，确认 VPC 和 EMR 集群 VPC 一致， 镜像选择支持 spark 的镜像，例如：ti-acc2.0-torch1.12-tf1.15-tf2.4-pyspark2.4.5-py3.8-cuda11.3-gpu。
3. 打开 Notebook，进入终端(Terminal), 编辑 sparkmagic 配置文件， 将 url 配置项值 localhost 修改为 EMR 集群内网访问地址后，保存。
# vim .sparkmagic/config.json 
﻿
... ...
  "kernel_python_credentials" : {
    "username": "",
    "password": "",
    "url": "http://localhost:8998",  
    "auth": "None"
  },
﻿
  "kernel_scala_credentials" : {
    "username": "",
    "password": "",
    "url": "http://localhost:8998",
    "auth": "None"
  },
  "kernel_r_credentials": {
    "username": "",
    "password": "",
    "url": "http://localhost:8998"
  },
... ...
4. 打开 SparkMagic，即可提交 spark 任务访问 EMR 资源。详情参考 sparkmagic文档。
使用从 CVM 选择机器的资源组创建 Notebook 时，可以使用免费存储吗？
不可以，免费存储仅支持从 TIONE 购买机器的资源组。
训练常见问题
内置大模型镜像使用方式是什么，如何进行环境管理?
内置大模型镜像使用 pip 进行环境管理（不建议使用 conda 进行环境管理，可能会与镜像中的内置库发生冲突）。
如果需要使用 conda 进行环境管理，请使用自定义镜像。
如何在平台打印 tqdm 进度条日志?
Python 中 tqdm 模块默认只有到行结束才将这行完全输出，需要完全输出了行日志采集组件才能采集成功；因此用户可以在训练代码中，修改打印日志的代码：
self.training_bar = tqdm(total=state.max_steps, dynamic_ncols=True) 
改为
self.training_bar = tqdm(total=state.max_steps, dynamic_ncols=True, position=-1)
即可看到如下的日志输出效果：
﻿
﻿
﻿
TIONE 平台对日志输出的要求是什么?
在 TIONE 控制台前端能看到实时日志的输出，需要将日志输出到 stdout/stderr 标准输出流，平台会按照用户输出的格式实时打印到前端控制台；若您需要将日志文件上传到 COS，则需要将日志写到 /opt/ml/output目录，平台会定期上传到配置的 COS 输出路径下。
您也可以在任务中配置投递到 CLS 日志服务，满足日志长期存储需求。
大模型训练加速库 Tilearn 的安装方式和使用说明是什么?
1. 安装 TIONE 大模型训练加速库 tilearn 方式如下：
1.1 卸载老版本 pip3 uninstall -y tilearn.llm tilearn.ops 
1.2 安装最新版本 llm 包： pip3 install tilearn-llm -i https://mirrors.cloud.tencent.com/pypi/simple 或  pip3 install tilearn.llm -i https://mirrors.cloud.tencent.com/pypi/simple 
1.3 安装最新版本ops包： pip3 install tilearn.ops -i https://g-bnvx3728-pypi.pkg.coding.net/tione/tilearn/simple 
2. 使用文档：tilearn-lIm tilearn-llm · PyPI﻿
3.  tilearn 的使用范围：
3.1 基于 nvcr.io/nvidia/pytorch:23.07-py3 制作的自定义镜像均可使用
3.2 平台镜像 tilearn-llm0.4.2-torch2.1-deepspeed0.10.0-py3.10-cuda12.1-gpu
3.3 镜像中的 torch.__version__=='2.1.0a0+b5021ba'
其他镜像需提工单，联系加速团队处理。
如何编写 CAM 自定义策略，实现创建者仅可见自己的任务?
在策略页面，编辑自定义策略的 statement 语句中，填写如下语句，其中 resource 字段可以写需要按照创建者隔离的资源清单（以 notebook 和任务式建模为例）：
{
    "effect": "deny",
    "action": [
      "tione:*"
    ],
    ###resource字段可以写需要按创建者隔离的资源清单
    "resource": [
      "qcs::tione:ap-guangzhou:uin/<这里写主账号的uin***>:notebook/*",
      "qcs::tione:ap-guangzhou:uin/<这里写主账号的uin***>:trainingtask/*"
    ],
    "condition": {
      "string_not_equal": {
          "qcs:create_uin": "${uin}"
      }
    }
}
TIONE 平台如何实现 CFS 文件系统的权限隔离?
TIONE 平台本身不支持单 CFS 文件系统的权限隔离，默认都是以 root 身份登录，建议用户使用多个独立的 CFS 实例，配置不同的可见权限来完成存储访问隔离，操作方式详情请查看各场景使用 CFS 文件系统的指引。
任务运行报 gloo 端口连不上怎么办?
当发现报 gloo 端口连不上的时候，一般原因是因为 gloo 使用了 rdma 网卡通信，需要通过 eth0 来通信，解决方式是可以通过指定 GLOO_SOCKET_IFNAME=eth0 后来解决。
子账号使用自定义策略时，如果在平台上发现使用某个功能报接口权限不足时，怎么办?
这种情况一般是因为产品迭代有新的云产品接口调用，可以按照报错的指引，在自定义策略中新增该接口权限。
账号相关权限可参考： 访问管理-用户相关问题。
配置了任务式建模的事件告警，但是收不到告警信息，是什么原因?
如果您按照文档事件总线告警配置指引 或者 配置事件告警配置了 TIONE 任务式建模的事件告警，一般情况下是由于您的主账号主动关闭了消息接收渠道，您可以联系主账号开通消息通知或者提交工单。
模型服务常见问题
在线服务启动后状态异常，怎么解决?
可检查任务的事件和日志，查看具体错误信息，根据提示解决。
常见问题：
1. 资源不足，例如：新建任务的资源超过资源组中单节点最大可用的资源。
2. 服务问题，例如：在线服务启动失败，或服务未监听默认8501端口。
如有疑问，可提供截图，异常事件和日志，提交工单处理。
在线服务更新没生效，怎么解决?
TIONE 平台仅支持感知控制台页面的配置变更，例如：镜像版本、启动命令、环境变量等。当您更新 COS、CFS 里的内容时，可参考文档：在线服务运营中服务更新章节内容操作。
在线服务挂载的模型，存在哪个路径？
在线服务的模型默认挂载目录为 /data/model/ 目录。
如何配置在线服务调用的 VPC？
您可以在在线服务列表页，点击服务名称，进入服务详情页，切换至服务调用, 其中高速服务调用中点击新增高速服务调用网段可以配置私有 VPC。
如何配置在线服务的日志告警？
可以在启动服务时选择日志投递到 CLS，在 CLS 产品控制台配置日志分析和告警。
在线服务为什么无法删除？
请检查您的在线服务实例是否停止。可以进入服务详情页，切换至实例列表，停止所有实例后再删除。
在 CVM 机器为什么访问不了在线服务？
在线服务的服务调用支持多种调用方式，参考文档：在线服务调用 。 可通过公网访问地址访问，或者配置 VPC，通过内网地址调用方式访问。
部署大模型在线服务时，如何选择合适的资源大小？
TI-ONE 平台对部分主流大模型都有给出推荐资源大小，您可以在大模型精调页面，选择对应的大模型卡片，在详情页查看推荐的资源。
部署大模型在线服务，调用接口是否支持流式调用？
目前 TI-ONE 平台如下几种方式部署的大模型在线服务，调用接口均支持流调用：
1. 新建在线服务， 运行环境选择：内置/LLM 类目下的环境。
2. 内置大模型，可以参考官网文档:   TI-ONE 内置大模型推理镜像使用说明。
3. 基于 TensorRT-LLM 框架部署的在线服务，可参考官网文档: 使用 TensorRT-LLM 与 Triton Inference Server 部署大语言模型最佳实践。
4. 自定义运行环境，用户自定义推理框架已支持流式调用。
在线服务配置的HPA策略为什么没生效？
常见原因是用户配置的HPA策略指标未达到设置的阈值。建议可以调整策略指标阈值，如果使用TI-ONE推理框架可参考模型推理文件简介和示例配置内置环境变量启用多进程，充分利用资源。
计费常见问题
TIONE 平台中使用对象存储 COS，怎么计费?
对象存储 COS 为腾讯云的分布式存储服务，计费独立详情请参见 对象存储-计费概述，将会应用于腾讯云 TI 平台 TI-ONE 中的各个环节，包括训练数据、中间结果数据和模型文件的存放与读取等。更多信息，请参考 对象存储产品文档。
﻿

常见问题

本页目录：

Notebook 常见问题

Notebook 有什么限制？

Notebook 运行中状态异常，提示出现"Evicted"，怎么解决？

Notebook 系统盘分区写满了导致容器被驱除，该怎么办？

Notebook 中下载慢，怎么解决？

Notebook 启动后状态异常，怎么定位、解决?

如何在 Notebook 中访问 EMR 资源？

使用从 CVM 选择机器的资源组创建 Notebook 时，可以使用免费存储吗？

训练常见问题

内置大模型镜像使用方式是什么，如何进行环境管理?

如何在平台打印 tqdm 进度条日志?

TIONE 平台对日志输出的要求是什么?

大模型训练加速库 Tilearn 的安装方式和使用说明是什么?

如何编写 CAM 自定义策略，实现创建者仅可见自己的任务?

TIONE 平台如何实现 CFS 文件系统的权限隔离?

任务运行报 gloo 端口连不上怎么办?

子账号使用自定义策略时，如果在平台上发现使用某个功能报接口权限不足时，怎么办?

配置了任务式建模的事件告警，但是收不到告警信息，是什么原因?

模型服务常见问题

在线服务启动后状态异常，怎么解决?

在线服务更新没生效，怎么解决?

在线服务挂载的模型，存在哪个路径？

如何配置在线服务调用的 VPC？

如何配置在线服务的日志告警？

在线服务为什么无法删除？

在 CVM 机器为什么访问不了在线服务？

部署大模型在线服务时，如何选择合适的资源大小？

部署大模型在线服务，调用接口是否支持流式调用？

在线服务配置的HPA策略为什么没生效？

计费常见问题

TIONE 平台中使用对象存储 COS，怎么计费?