前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >qGPU 容器产品全量上线,重磅发布 GPU 在离线混部功能

qGPU 容器产品全量上线,重磅发布 GPU 在离线混部功能

作者头像
腾讯云原生
发布2022-03-10 11:10:27
1.1K0
发布2022-03-10 11:10:27
举报
文章被收录于专栏:腾讯云原生团队

徐蓓,腾讯云容器技术专家,腾讯云异构计算容器负责人,多年云计算一线架构设计与研发经验,长期深耕 Kubernetes、在离线混部与 GPU 容器化领域,Kubernetes KEP Memory QoS 作者,Kubernetes 积极贡献者

摘要

qGPU 是腾讯云推出的 GPU 共享技术,支持在多个容器间共享 GPU 卡资源,提供百分比算力与 MB 级显存细粒度分配和强隔离能力,并且搭配业界独有的 GPU 在离线混部技术,在充分保证业务安全、稳定的前提下,将 GPU 利用率提升到了极致。

qGPU 已服务内外部大量客户,帮助众多 AI 企业节省大量 GPU 成本。qGPU 容器虚拟化产品现已在腾讯云 TKE 全量上线。(qGPU 容器虚拟化产品:https://cloud.tencent.com/document/product/560/66232

腾讯云在业界(除 NVIDIA 原厂外)首次实现了对细粒度算力强隔离的支持。qGPU 算力可以实现 1% 的细粒度限制,并且保证严格按照配比分配和限制算力资源,即使在 GPU 资源非常紧张时,各业务所分配算力资源依然保证不受影响。依赖这种能力,企业用户可以尽量多的增加业务部署密度,充分利用 GPU 资源,而不用担心会对业务带来负面影响。

qGPU 依赖 TKE 自研调度器和设备管理器,在 TKE Kubernetes 集群上支持 GPU 卡级别的百分比算力和 MB 级显存分配和调度,在保证集群最优资源分配和负载的前提下,让企业 AI 任务可以使用更小粒度的 GPU 资源。

qGPU 在 GPU 硬件级(而非 CUDA API 级的拦截和控制)实现了 QoS 能力,通过 MB 级控制 GPU 显存资源分配及细粒度的强算力隔离,最大程度避免了因共享 GPU 带来的业务性能损失。通过这种创新技术,qGPU 解决了故障、显存和算力全维度的隔离问题。

除此之外,腾讯云 qGPU 创新性的将在离线混合部署技术与 GPU 相结合,在业界首次实现了 GPU 在离线混部的方案,将 GPU 容器共享技术推进到了下一个纪元。

在线业务通常指推理业务,离线业务可能是推理、也可能是训练,于是在离线混部主要形式有 推理 + 推理、推理 + 训练。如果缺乏有效技术手段,为了保证在线业务的 QoS,需要使之独占一张 GPU 卡,这会导致利用率很低。在具备 qGPU 在离线混部能力之后,用户可以安全地将在线业务与其他业务部署在同一张 GPU 卡,在共享复用资源的同时,可以完全保障在线业务健康、稳定运行。

可以说,腾讯云 qGPU 在离线混部是提升 GPU 利用率的创新性的突破技术。利用领先的细粒度算力隔离技术和独创的算力高低优调度技术,在保证在线任务算力 QoS 的前提下,可以有效将 GPU 利用率提升至 100%,极大程度减少算力浪费,将 GPU 资源压榨到极致。

总结

算力异构化已经是今天的业界共识。其中 GPU 以其强大的算力和完善的生态,在 AI 异构计算中占据了统治地位。面对昂贵的 AI 算力资源,企业迫切的希望有技术手段可以帮助降低成本,增加效率。

腾讯云 qGPU 立足 AI 领域,依托 GPU 资源细粒度调度、GPU 资源强隔离、GPU 在离线混部等技术产品,通过为企业提升 GPU 使用效率,释放 AI 算力生产力,最终帮助企业带来持续和不断的巨大商业价值。

qGPU 容器虚拟化:

(扫码了解 qGPU 容器虚拟化)

重磅介绍

【燎原社】推出了专业而又系统的线下云原生技术实战营,需要系统化深入学习的同学,可扫码报名云原生技术实战营课程,腾讯云技术专家现场教学,3天搞定云原生容器化改造过程中的实际问题,扫码一键直达:

  往期精选推荐  

点个“在看”每天学习最新技术

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云原生 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 总结
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档