10月30日,在2025金融街论坛年会的金融科技大会上,由北京市西城区人民政府主办、中关村科技园区西城园管委会承办的 “2025金融科技应用场景大赛” 终评结果在北京正式公布。腾讯专有云 “基于TCS的AI异构算力管理平台” 凭借技术创新性与场景落地能力,从全国89家机构提交的280个项目中突围,斩获“十佳应用奖”。

AI 技术迅猛发展的今天,算力作为核心生产要素,其管理与调度效率成为企业 AI 应用落地的关键瓶颈。同时在算力资源分散、供应不稳、需求激增的背景下,企业面临着异构算力资源难以统一管理、资源配置和调度复杂、缺乏智能化监控运维及故障自愈能力、资源利用率低下等挑战。这些问题导致企业运营成本上升,业务创新能力受限。
基于此,腾讯专有云推出腾讯专有云 PaaS 平台(Tencent Cloud-native Suite, 简称 TCS )异构算力管理平台,通过提供一站式的异构算力资源整合、调度、运营服务,显著提升资源使用的效率和灵活性,有效控制并优化成本。通过云原生 AI 技术提升异构算力管理效益,加速云原生 AI 的构建,助力行业企业在 AI 时代构建敏捷、高效、安全的算力底座。

在实际应用中,TCS 异构算力管理平台展现出以下四大关键特性:
异构算力统一管理
TCS 通过异构算力统一管理解决方案,实现了对多种类型加速芯片(如CPU、GPU、NPU 等)的统一接入和集中管理。
该方案借助多集群扩展能力,不仅能够整合多个异构计算集群资源,提供集中式的资源视图和操作入口,打破资源孤岛,还能通过注册集群功能无缝管理异地云外集群,构建真正一体化的算力资源池,从而显著提升资源利用率、简化调度流程并降低运维复杂度。
针对各家加速芯片厂商提供的部署方式各异的问题,TCS 基于 TAD(Tencent Application Definition)云原生应用声明式部署规范,提供了标准化的接入接口与适配框架,并实现了快速集成与高效部署,显著降低了适配成本,大幅缩短了部署周期。
异构算力灵活调度
TCS 的异构算力灵活调度方案能够根据应用需求动态分配算力资源,显著提升资源利用率和计算性能。
该方案通过智能调度器、DevicePlugin 框架及扩展资源机制,高效管理 GPU、NPU 等第三方加速设备,并支持多样化的调度策略,以满足不同场景的算力需求。
同时,其拓扑感知调度能力可智能分析节点间网络拓扑及节点内部资源互连架构,优化任务性能、加速训练过程,并减少实例间的性能差异,从而确保计算任务的高效执行。
资源利用率提升与成本优化
TCS 通过多项创新技术实现 GPU 资源的高效利用与成本优化。
在资源利用方面,采用内核态 GPU 共享技术(qGPU),支持多个容器共享同一张 GPU 卡,实现算力与显存的精细隔离,其 5% 算力、1GB 显存的细粒度分配能力使资源利用率达到极致,同时确保业务无感知。
同时支持丰富的集群及单卡调度策略,提供 Spread(平均分配保证负载稳定均衡)、Binpack(尽量填满保证利用率)、Best Effort(保证最大的吞吐)、Fixed Share(算力最低配置保证)、Burst Share(算力最低保证,允许占用空闲)等多种智能调度模式,可灵活适配不同业务场景需求,既保障负载均衡,又能最大化资源利用率。
特别值得一提的是 TCS 创新的 GPU 在离线混部调度能力,通过任务的优先级实现抢占调度功能,支撑训推一体业务部署:对高优任务(如在线推理)采用平均分配确保稳定性,对低优任务(如离线训练)则采用填满策略提高利用率,并支持 100% 在线抢占功能,在保障关键业务的同时最大程度降低资源闲置。
基于腾讯开源项目 Crane 构建的 FinOps 成本中心,提供资源可视化、分析及智能优化三大核心能力,旨在提升集群的资源利用率。Crane 算法在腾讯内部自研业务中实现了大规模落地,成功部署至数百个容器集群,为企业带来了显著的降本增效效果。目前,TCS FinOps 已在多家头部金融及政企客户中成功应用,极大提升了集群的资源使用率。
此外,通过 TACO-LLM 提供高吞吐、低时延、开放兼容的大模型推理加速引擎,极大提升了推理效率和系统稳定,吞吐最高提升2倍。
智能运维与故障自愈
TCS 的智能运维与故障自愈系统通过自动化管理手段显著提升了异构算力集群的运维效率。
该系统具备全面的集群监控能力,可对 CPU、GPU、NPU 等各类计算资源进行多维度实时监测,覆盖从基础设施到应用负载的各个场景,帮助运维人员快速发现并准确定位运行异常,确保数据中心整体运行的稳定性。在故障处理方面,系统特别针对 GPU 设备内置了智能检测与自愈机制,能够自动识别硬件故障并触发告警,同时根据业务实际情况智能执行预设的修复方案,大幅降低人工干预需求。
平台还提供统一的运维运营门户,集成监控中心、日志平台、巡检、变更发布、运维工具、安全中心、容灾管理、故障演练等功能模块,有效简化了日常运维流程。这套智能运维解决方案通过自动化扩缩容、智能故障诊断与自愈等创新功能,不仅显著降低了运维人力成本,更确保了异构算力资源的高效稳定运行,为用户提供了更加可靠的算力保障。同时支持多地多中心高可用部署架构,强大的运维及容灾能力帮助上层业务达到金融级高可用能力。
此外,TCS 提供基于 AI 智能体的排障运维助手,通过整合大模型推理能力与 TCS 领域知识库,实现自动化问题诊断与排障决策。
TCS 创新采用 “一云多芯” 架构,支持多种 CPU、GPU 硬件,全面适配多种GPU / NPU 。通过异构算力统一管理、多集群扩展、异构算力灵活调度、拓扑感知调度、qGPU 内核态共享及离在线混部、FinOps 成本中心、GPU 故障检测与自愈、智能运维等核心能力,提供一站式的异构算力资源整合、调度、运营服务,显著提升资源使用的效率和灵活性,有效控制并优化成本,为企业业务创新发展提供持续动力。
凭借卓越的技术实力与灵活的管理能力,TCS 目前已在多家金融机构及政企客户中成功落地,为客户 AI 训练推理业务提供高效支撑。凭借多项可信云权威认证及深度参与行业标准制定,其卓越性能、可靠性及稳定性已获充分验证,有力支持数字金融的创新发展。
END
关注腾讯专有云公众号,了解更多云与 AI 应用的最佳实践!