「资源监控」通过提供资源看板方式支持用户查看“资源”和“业务”相关指标,以对资源使用情况、任务运行情况做评估。
资源维度:
支持按资源维度展示监控指标,包括卡数情况、GPU 分配率、任务利用率、GPU 利用率。
支持按照资源组维度查看资源组的监控指标,包括卡数情况、GPU 分配率、任务利用率、GPU 利用率。
支持按照使用团队标签分别展示各卡型占用卡时等。
业务维度:
支持按业务(任务)维度展示监控指标,包括任务和服务数、运行过的任务数和低利用率任务数。
支持按照服务维度(仅展示有大模型监控的)展示 GPU 利用率、首 token 延时等指标。