首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >TKE 算力集群:新一代跨集群混部资源引擎

TKE 算力集群:新一代跨集群混部资源引擎

作者头像
腾讯云原生
发布2025-10-31 11:22:56
发布2025-10-31 11:22:56
260
举报

彭芳,腾讯云高级产品经理,负责 TKE 相关能力建设和商业化工作。

引言

在云原生技术席卷千行百业的今天,企业业务早已从单一微服务转向 “在线服务 + AI 训练 + 大数据处理” 的多元形态。业务多样性高、资源需求有差异,出于对稳定性的顾虑,业务常常对资源超量申请,容器平台面临的资源管理压力与日俱增。依托腾讯在开源社区的技术沉淀和内部应用,TKE 面向跨集群资源调度场景推出的首个全栈式产品化方案,算力集群。通过将每个闲置节点按拓扑抽象为虚拟节点(vNode)进行统一纳管,为用户提供了一套全新的资源管理范式。

1 多元业务的资源运营困境

以腾讯内部业务为例,某平台同时承载了大规模训练业务,该业务资源需重点保障;在线推理业务,存在明显的波峰波谷特征;离线推理和数据预处理业务,时延不敏感,优先级较低且资源可抢占;业务之间可能独占集群或共享集群。IT 部门不仅要做好业务的资源保障,还要考虑如何充分调动全局算力,以成本效益最大化的方式实现业务和资源整合。

针对上述难题,业界公认的解决方式是 “在离线混部”技术(如 Koordinator,Caelus,Katalyst,Crane)。但混部并非“银弹”,当企业将混部能力从单个集群扩展到全局多个集群时,资源仍然被物理集群边界锁死。面对跨集群的资源调度问题,解决思路之一是利用 Virtual Kubelet 技术将下层集群的资源汇总并抽象为虚拟节点(如 Tensile-kube,Liqo),旨在扩展单集群的资源边界,但该方案同样存在不可忽视的局限性:

  • 资源视图失真与调度失效:虚拟节点仅抽象理论可用资源总和,无法感知业务集群内部的资源碎片分布,容易调度失败。
  • 故障域放大:业务集群的局部故障可能导致上层虚拟节点被标记为 NotReady,容易触发大规模 Pod 迁移。
  • 缺乏拓扑感知:虚拟节点抽象屏蔽了 NUMA、Zone 等底层细节,破坏了 K8s 原生的拓扑约束,可能导致 I/O 延迟增加或性能下降 。

通过上表不难看出,业内的相关方案各有所长,但要想达到全局资源效益最大化,用户常常需要组合多种技术。面对企业级多元业务的资源运营困境,TKE 首创全新产品形态“算力集群”,通过整合“在离线混部(深度利用)” 与 “跨集群调度(广度扩展)” 两大技术支柱,致力于整合全局资源,在统一的调度平面下将分散在不同业务集群中的闲置算力池化、复用,进而实现全局最优的成本效益。

2 新一代资源管理范式,算力集群

算力集群是 TKE 面向跨集群资源混部场景推出的首个全栈式产品化解决方案,旨在充分挖掘集群中的闲置算力,让资源成本迈向全局最优。方案默认集成了多集群资源管理、Crane 扩展调度 、混部隔离保障的 RUE 内核以及超大规模集群管控功能,全面降低用户在跨集群管理、资源调度和在离线混部上的维护复杂度。

纵观云原生成本治理的发展进程,腾讯已经积累了丰富的内外部实践经验。2020年内部已孵化出全场景在离线混部方案 Caelus,同年针对集群资源碎片场景开源了多集群调度方案 Tensile-kube;2022年 TKE 团队推出国内首个成本优化开源项目 Crane,并结合自研 RUE 内核确保混部隔离性;2023年,TKE 搭载 FinOps 理念推出原生节点,通过“节点放大”、“碎片规整”、“可抢占式 job”等产品能力,大幅降低用户的操作门槛。依托开源社区的技术沉淀和内部应用,算力集群通过将每个闲置节点按拓扑抽象为虚拟节点(vNode)进行统一纳管,为用户提供了一套全新的资源管理范式:1、在线类业务消耗常驻集群资源,近离线业务优先消耗闲置资源,兜底 Serverless 弹性资源保障离线算力的稳定供给。2、高优在线类业务的部署和提交模式不变;低优离线类业务通过算力集群统一运营,基于全局调度为离线业务匹配最合适的算力,优先级默认最低且资源可抢占。

3 架构拆解:如何做到全域协同

如下图所示,算力集群的资源管控能力主要由 Kubeocean 套件承载,包括负责业务集群注册和生命周期管理的 Manager、资源计算和业务创建的 Syncer 和请求代理 Proxier 等组件构成。组件默认多副本部署,每个业务集群由单独一套 Syncer 和 Proxier 管理,架构核心优势如下:

  • 节点级资源接入:通过 Manager 和 Syncer 的配合,支持自动扫描业务集群的节点,根据资源约束规则筛选出可抽取的闲置节点;把业务集群每个节点的闲置资源抽象成 vNode,1:1 向上注入算力集群;实时同步节点资源水位,比如节点 CPU 利用率因在线业务的流量波动从 20% 升到 40%,会自动减少 vNode 面向离线业务的可分配资源。
  • 单层任务调度架构:采用 “单层调度 + 二次确认” 设计。离线任务由上层调度器直接调度到 vNode,业务集群的调度器进行二次确认资源是否满足,确保底层集群的扩展调度机制不会失效,比传统 VK 方案的调度准确率提升 40%。支持 Gang Scheduling(批调度),比如 Spark 任务需要 10 个 Executor,要么全调度成功,要么全不调度,避免资源浪费。
  • 精细化资源约束:通过自定义 CRD(ResourceLeasingPolicy)实现 “精细化管控”,比如: 限制某集群最多只能抽取 50% 的 CPU 资源(避免影响在线); 仅允许工作日夜间抽取资源,周末全天可用; 只抽取 “GPU 型号为 A10” 的节点资源(匹配模型训练需求)。
  • 大规模集群性能优化:vNode 抽象必然带来集群规模的增大,平台通过 pod 剪裁、减少非必要 list-watch、etcd 性能优化等手段,降低了集群管控面压力。为支撑高性能计算、数据处理等超大规模业务场景,TKE 全面增强了 k8s 控制面的处理能力。团队设计了 Hyper Master 方案利用腾讯云分布式数据库实现 etcd 协议兼容层,突破了原生 etcd 在大规模场景下的性能瓶颈,单集群可支撑 5万+节点的稳定运行,将控制面吞吐量提升10倍以上,API 响应延迟降低至毫秒级,可实现 99.95% 的集群稳定性。

4 产品优势和适用场景

算力集群就像一位资源管家:帮你盘点所有集群的闲置资源,给离线任务分配 “临时工位”,在线业务忙时就请离线任务“暂让”,还可以请“算力外援”来保障离线任务运行质量。

  • 全局视图统一管理混部资源:通过穿透集群边界将分散在各个集群的闲置CPU、GPU节点资源抽象为虚拟节点(vNode),在上层形成全局算力池统筹管理闲置资源。当闲置资源不足时,还支持自动扩容 Serverless 弹性算力。
  • 灵活的调度能力:算力集群兼容原生 kubernetes 和 Crane 调度逻辑,离线任务的运行和调度逻辑与业务集群解耦,默认集成队列调度、批调度、任务编排等面向离线业务的增强调度能力。支持离线任务灵活匹配闲置算力,可按照 “时间 + 空间” 双重感知调度。如在夜间 22 点至早 6 点抽取业务集群资源(避开业务高峰),只选择 “非核心业务节点” 提供算力。
  • 全方位保障在线服务质量:基于 RUE 内核的 QoS 优先级与抢占机制,确保在线业务拥有绝对资源优先使用权。搭配 QosAgent 组件实时监控干扰情况,指标波动时自动触发资源压制或离线任务驱逐。
  • 业务集群零改造接入:基于非侵入式技术实现跨集群资源整合,通过标准的Kubernetes API 即可实现资源纳管,只需在算力集群中配置 “哪些集群可被管理”,即可自动获取闲置资源。

通过将全局算力抽象为“已占用”和“可复用”,用户不需再执着于如何将单一业务类型在集群中装得更满,算力集群可以帮助用户整合多元化业务,让离线任务填补算力闲置的空缺。基于内部业务的积累和沉淀,某在线业务平台借助跨集群混部方案挖掘了超 20w 核运行大数据任务;通过跨业务和跨时段的资源复用,某广告平台的全局 GPU 资源利用率提升了 37%。算力集群主要适用以下场景:

  1. 多集群资源割裂:业务分散在不同部门/集群,GPU等昂贵资源跨集群迁移成本高;
  2. 潮汐型业务负载:存在在线业务波峰波谷明显(如广告、AI推理),离线任务(数据清洗、模型训练)需填补闲置;
  3. 高成本敏感型企业:GPU/大数据资源占比高,需通过混部降低资源成本。

结语:让闲置算力成为业务增长的新燃料

当企业的 IT 架构从 “业务专属资源池” 转向 “全局算力共享”,资源利用率的提升不再是 “抠细节”,而是 “换思路”。TKE 算力集群作为行业内首家集多集群管理、混部、调度为一体的产品化解决方案,提供了一种全新的资源管理模式,进一步帮助企业用好用活现有资源,将节省的每一分算力都转化为驱动业务增长和创新加速的燃料

TKE 算力集群已启动内测,欢迎点击下方【内测链接】或【阅读原文】提交体验申请,也可通过大客户售后或架构师渠道获取专属定制方案。 https://cloud.tencent.com/apply/p/bw0lxhaknsu

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-10-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云原生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 引言
  • 1 多元业务的资源运营困境
  • 2 新一代资源管理范式,算力集群
  • 3 架构拆解:如何做到全域协同
  • 4 产品优势和适用场景
  • 结语:让闲置算力成为业务增长的新燃料
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档