操作相关

最近更新时间:2024-09-08 14:24:52

我的收藏

节点 CPU 有空余,为什么作业一直处于等待状态?

占据节点的作业提交时没有指定内存,会默认占据节点的全部内存,即时 CPU 空余也不能继续投递作业。Slurm 作业提交参数参见 Slurm 官方文档

投递指定资源与机型规格一致的作业,节点扩容出来后为什么作业处于等待状态无法运行?

投递作业时需要注意,实例操作系统看到的可使用的内存会小于实例规格的内存。例如:S6.LARGE8 机型规格为4核16GB内存,扩容后的实例 OS 可用内存为15GB。您可以设置扩容队列配置时使用 ScaleUpMemRatio 参数在扩容过程中,使作业匹配的实例机型内存增大比例。

作业一直处于 COMPLETING 状态无法结束如何处理?

出现这种情况可能原因有多种,可参见 Slurm 官方文档 进行排查。

在集群中添加的新用户,如何在节点间进行同步?

创建集群的时候,指定参数:--AccountType NIS,NIS 的 server 端会安装在 manager 节点上,然后通过以下步骤可以进行 user 同步:
1. 在 manager 节点创建新用户。
2. 在 manager 节点,执行 make -C /var/yp 其他节点都可以感知到新添加的 user。

使用 NIS 同步用户后,在管控节点上使用新用户提交任务失败如何处理?

排查方法:在管控节点上通过 ssh 登录到计算节点,查看 /var/log/slurmd.log 的日志,查看具体的报错原因是否为用户权限相关。
问题原因:当前用户在管控节点当前目录下提交任务,计算节点的用户也会在相同的目录下进行读写操作,如果计算节点提交任务的目录不存在或者当前用户无权限执行读写操作,任务便会提交失败。
解决方法:确保创建的用户在管控节点和计算节点上都存在,且都在拥有读写权限的目录下执行任务。

tccli 发生报错 'module' object has no attribute 'xxx' 如何处理?

报错原因:tccli 升级时,不会更新配置,如果接口版本更新,会默认指定旧版本。
解决方法: 在命令行运行如下命令,将版本设置为2022-04-01(最新版本)。
tccli configure set thpc.version 2022-04-01

产品如何进行计费分类?

创建集群(CreateCluster) 接口存在 Tags 参数(Tag 数组类型), 通过填写 Tag,能够关联集群内所有资源,包括 CVM、云硬盘、VPC、CFS 等资源,添加节点(AddNodes) 接口添加的节点也会添加集群创建时填写的标签信息。
注意:
弹性伸缩出来的实例,需要在弹性伸缩控制台添加标签,THPC 无法为弹性伸缩的关联实例添加标签。
"Tags": [
{"Key": "type", "Value": "compute"}
]
资源计费情况可以在费用中心的 账单概览,通过按照标签分类进行查看。

如何使用自定义镜像创建集群?

1. CVM 购买页 购买和计算节点实例类型一致的 CVM 机型(您需要选择 CentOS 7.8/7.9镜像)。
2. 在 CVM 控制台的 实例 页面,找到步骤1创建的机器,单击更多 > 制作镜像,完成自定义镜像制作。
说明:
镜像制作后,您可以将用于制作镜像的 CVM 资源删除。



3. 在 CVM 控制台的镜像 > 自定义镜像 页面,找到步骤2创建的自定义镜像,复制镜像 ID。


4. 在创建集群时传入自定义镜像 ID 即可。