彭芳,腾讯云高级产品经理,负责 TKE 相关能力建设和商业化工作。
在云原生技术席卷千行百业的今天,企业业务早已从单一微服务转向 “在线服务 + AI 训练 + 大数据处理” 的多元形态。业务多样性高、资源需求有差异,出于对稳定性的顾虑,业务常常对资源超量申请,容器平台面临的资源管理压力与日俱增。依托腾讯在开源社区的技术沉淀和内部应用,TKE 面向跨集群资源调度场景推出的首个全栈式产品化方案,算力集群。通过将每个闲置节点按拓扑抽象为虚拟节点(vNode)进行统一纳管,为用户提供了一套全新的资源管理范式。
以腾讯内部业务为例,某平台同时承载了大规模训练业务,该业务资源需重点保障;在线推理业务,存在明显的波峰波谷特征;离线推理和数据预处理业务,时延不敏感,优先级较低且资源可抢占;业务之间可能独占集群或共享集群。IT 部门不仅要做好业务的资源保障,还要考虑如何充分调动全局算力,以成本效益最大化的方式实现业务和资源整合。
针对上述难题,业界公认的解决方式是 “在离线混部”技术(如 Koordinator,Caelus,Katalyst,Crane)。但混部并非“银弹”,当企业将混部能力从单个集群扩展到全局多个集群时,资源仍然被物理集群边界锁死。面对跨集群的资源调度问题,解决思路之一是利用 Virtual Kubelet 技术将下层集群的资源汇总并抽象为虚拟节点(如 Tensile-kube,Liqo),旨在扩展单集群的资源边界,但该方案同样存在不可忽视的局限性:

通过上表不难看出,业内的相关方案各有所长,但要想达到全局资源效益最大化,用户常常需要组合多种技术。面对企业级多元业务的资源运营困境,TKE 首创全新产品形态“算力集群”,通过整合“在离线混部(深度利用)” 与 “跨集群调度(广度扩展)” 两大技术支柱,致力于整合全局资源,在统一的调度平面下将分散在不同业务集群中的闲置算力池化、复用,进而实现全局最优的成本效益。
算力集群是 TKE 面向跨集群资源混部场景推出的首个全栈式产品化解决方案,旨在充分挖掘集群中的闲置算力,让资源成本迈向全局最优。方案默认集成了多集群资源管理、Crane 扩展调度 、混部隔离保障的 RUE 内核以及超大规模集群管控功能,全面降低用户在跨集群管理、资源调度和在离线混部上的维护复杂度。

纵观云原生成本治理的发展进程,腾讯已经积累了丰富的内外部实践经验。2020年内部已孵化出全场景在离线混部方案 Caelus,同年针对集群资源碎片场景开源了多集群调度方案 Tensile-kube;2022年 TKE 团队推出国内首个成本优化开源项目 Crane,并结合自研 RUE 内核确保混部隔离性;2023年,TKE 搭载 FinOps 理念推出原生节点,通过“节点放大”、“碎片规整”、“可抢占式 job”等产品能力,大幅降低用户的操作门槛。依托开源社区的技术沉淀和内部应用,算力集群通过将每个闲置节点按拓扑抽象为虚拟节点(vNode)进行统一纳管,为用户提供了一套全新的资源管理范式:1、在线类业务消耗常驻集群资源,近离线业务优先消耗闲置资源,兜底 Serverless 弹性资源保障离线算力的稳定供给。2、高优在线类业务的部署和提交模式不变;低优离线类业务通过算力集群统一运营,基于全局调度为离线业务匹配最合适的算力,优先级默认最低且资源可抢占。
如下图所示,算力集群的资源管控能力主要由 Kubeocean 套件承载,包括负责业务集群注册和生命周期管理的 Manager、资源计算和业务创建的 Syncer 和请求代理 Proxier 等组件构成。组件默认多副本部署,每个业务集群由单独一套 Syncer 和 Proxier 管理,架构核心优势如下:

算力集群就像一位资源管家:帮你盘点所有集群的闲置资源,给离线任务分配 “临时工位”,在线业务忙时就请离线任务“暂让”,还可以请“算力外援”来保障离线任务运行质量。

通过将全局算力抽象为“已占用”和“可复用”,用户不需再执着于如何将单一业务类型在集群中装得更满,算力集群可以帮助用户整合多元化业务,让离线任务填补算力闲置的空缺。基于内部业务的积累和沉淀,某在线业务平台借助跨集群混部方案挖掘了超 20w 核运行大数据任务;通过跨业务和跨时段的资源复用,某广告平台的全局 GPU 资源利用率提升了 37%。算力集群主要适用以下场景:
当企业的 IT 架构从 “业务专属资源池” 转向 “全局算力共享”,资源利用率的提升不再是 “抠细节”,而是 “换思路”。TKE 算力集群作为行业内首家集多集群管理、混部、调度为一体的产品化解决方案,提供了一种全新的资源管理模式,进一步帮助企业用好用活现有资源,将节省的每一分算力都转化为驱动业务增长和创新加速的燃料。
TKE 算力集群已启动内测,欢迎点击下方【内测链接】或【阅读原文】提交体验申请,也可通过大客户售后或架构师渠道获取专属定制方案。 https://cloud.tencent.com/apply/p/bw0lxhaknsu