首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

直播回顾 | DeepSeek本地部署中的监控服务介绍

本文根据益企研究院平台的直播《上海交大实践分享 国内高校首个DeepSeek 671B国产平台全系列本地化部署实践》部分内容整理而成,本部分主讲人为上海交通大学网络信息中心助理工程师盛家杰,主题为《DeepSeek本地部署中的监控服务介绍》。

本次分享的内容为三点。

简单介绍一下该监控平台;

介绍此次搭建的DeepSeek集成的监控项;

从目前收集到的监控数据总结的一些特征,以及这些监控指标如何帮助我们完成后续的工作,比如说故障排查或者服务扩容等。

监控平台介绍

这个监控平台是上海交通大学校级高性能计算平台的一个统一监控平台,包含对上海交大多个高性能计算集群的监控。

首先是资源用量的可视化,它会实时展示集群的硬件资源,比如说 CPU 、内存和磁盘,还有网络的使用情况。也包括可以展示软件服务的使用情况,比如高性能计算中的作业调度系统、并行文件系统的运行状态。

其次,该平台集成了异常告警,包括硬件故障、资源超限、服务异常等,它都可以进行监测和告警。

第三,该网站可以被公开访问,不仅管理员可以访问该页面,校内的用户或者是校外的人员,都可以访问这个页面,它可以对外提供透明化的运维数据的监控。

第四个,此次要介绍的主要的内容是对大语言模型的服务的监控。针对本地部署的DeepSeek大模型集群,网站集成了推理服务的多项性能指标,包括请求量、token吞吐量以及这个请求的时延等。这些指标可以对后续工作起到很重要的指导作用。

硬件层面的监控项

在硬件层面,集群总览展示了集群的所有节点。此次部署DeepSeek,第一批有八个节点上线,后来又扩容了十个节点,现在从监控网站上能够看到,有38个节点。

可以在画面上看到,每个节点的昇腾处理器的数目是八个,因此整个集群拥有卡的数量为304个。

在监控页面,大家可以看到它收集了多项硬件层面的监控数据,包括 CPU、内存、磁盘、网络等的使用量等。

这些数据如何指导我们的工作?

大家可以观察CPU、NPU的负荷情况。如果处于长期高负载,就意味着我们需要扩容硬件节点。

上图中所示的 NPU 利用率,可以看到它还有上升的空间。交大也因此最近正和厂商密切配合,以便测试他们优化之后的版本。

服务质量监控

前面提及了硬件监控项,可以方便实现故障排查。除此之外,该监控网站还对服务质量实施了监控,如下图上面的面板所示(分别为R1和V3),监控的内容主要有两方面。

第一,可以了解总体请求的分布。包括推理请求量的个数,以及成功的、失败的,还有终端运行的推理请求的QPS 。

通过这些数据,我们可以了解实时的请求频率以及请求的分布,还有请求的成功率和失败率。

第二,可以了解请求的数据。包括单个请求的输入输出的 token 数量有哪些,以及这里所列出的各种百分比数据。除了 token 数量,还可以监控端到端的时延,即用户从发出请求到该请求完成的时间。也可以监控token 的吞吐量,即对于该服务端而言,它在处理推理请求时,它平均生成的吞吐量是多少 token 每秒?

第三,可以监控首个 token 时间。该指标会直接的反映用户的使用体验。如果首个 token时间比较小,用户体验就会比较丝滑。其直观体验就是用户刚完成输入,对面的服务器就返回了回复。因此,对于用户体验来说,该数值越小越好。

以上这些请求相关的数据,是推理的服务质量的重要指标。通过这些指标,我们就可以了解当前的服务质量如何。

监控数据收集的信息

接下来,给大家展示通过该监控平台,收集到的相关信息。

第一个,使用时间的分布。

此处显示了昇腾 AI 处理器的利用率,在这个将近24小时的利用量显示面板中,大家可以看到,DeepSeek的使用时间基本上集中在早上九点到晚上12点左右。这个正是大家工作日的工作时间,因此在这个时间段的用户使用量较高。

第二个,使用数量的分布。

在该监控页面,从右上角可以看到请求的输入输出 token 数量面板,平均来说,用户输入的token 数量在2000到3000。

这是因为目前交大的的本地 DeepSeek集群,只开放了聊天服务,目前还没有开放文件上传功能。因此,目前的平均输入 token数量比较低。后续,交大会测试开放文件上传功能。我们相信,在功能扩展之后,该数量可能会上升,我们会密切关注该监控指标的波动。

我们还可以监控到相关请求的特征。从首个 token 响应时间来看,目前的平均首 token 时延,基本上在0.36,即小于0.5秒,因此,我们认为用户体验相对较好。对于用户来说,他刚刚输入他需要问的问题,对面的服务端马上把回复返回了,对他来说,会感觉非常友好。

如上,是此次有关交大DeepSeek本地部署的监控系统的介绍。

关注我们获取更多精彩内容

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OzCqxsxS554xmpron5XQZKqg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券