前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >寒武纪vMLU技术面世,首推SR-IOV虚拟化功能

寒武纪vMLU技术面世,首推SR-IOV虚拟化功能

作者头像
机器之心
发布2020-05-06 18:29:43
6110
发布2020-05-06 18:29:43
举报
文章被收录于专栏:机器之心机器之心

机器之心发布

机器之心编辑部

2020 年 4 月,国内 AI 芯片独角兽寒武纪对外宣布,旗下云端智能芯片及加速卡系列思元 270 将正式基于寒武纪虚拟 MLU(vMLU)技术,首次支持 SR-IOV 功能。

据了解,SR-IOV 功能具备更好的租户隔离、应用热迁移特性,可为云服务供应商提供安全、优质的 AI 计算资源,以充分保障用户在 AI 领域的投资。思元 270 是寒武纪首款支持 SR-IOV 虚拟化功能的云端智能芯片产品。据悉,寒武纪未来的云端智能芯片,都会支持 SR-IOV 功能。

瞄准用户痛点:如何高效利用 AI 计算资源

思元 270 是寒武纪推出的面向云端的智能芯片,其支持全面的 AI 推断场景部署,包括视觉、语音、自然语言处理等多样化的人工智能应用。思元 270 系列支撑数据中心、专业场景乃至桌面等多元化部署场景。

在这些部署场景中,面向云端部署、多样化人工智能推断、以及配合寒武纪边缘侧板卡进行应用开发时,如何对 AI 计算资源的有效利用是用户首要关心的问题。也是寒武纪本次推出 SR-IOV 虚拟化功能的核心诉求:

  • 面向云端部署:在云部署环境下,云服务提供商 (CSP) 帮助海量租户以高性价比、高可用性的方式提供计算、存储、网络资源的服务,在此基础上还可提供高达 99.99% 的高可用服务级别。从 Hypervisor 和底层硬件上对资源进行高效共享以及多租户、实例进行相互隔离,成为了 AI 云服务的基本诉求。
  • 面向复杂的人工智能推断:在 AI 应用进行部署时,用户通常会遇到业务逻辑较为复杂的场景,需借助多个网络模型来构建 AI 辅助决策系统。为保证服务器节点内的服务质量,通常会采用一机多卡的部署方式。但计算成本和服务质量需要兼顾时,用户会希望用单张板卡并行多个模型来解决问题。
  • 面向边缘、端侧应用开发:寒武纪产品线已在云、边、端三个维度实现全面覆盖,在面向边缘侧和端侧的应用开发过程中,用户经常会受部署侧的 CPU、产品形态或网络条件的限制,无法直接在最终部署的设备上进行开发。寒武纪支持采用端云一体的开发环境帮助用户快速将应用落地,而帮助云侧计算资源高效、合理的分配给应用开发组,是思元 270 虚拟 MLU 的开发目标之一。

寒武纪首推 SR-IOV 功能:让 AI 云、业务部署和应用开发更灵活、高效、安全

为实现以上诉求,思元 270 采用寒武纪虚拟化技术——vMLU,该虚拟化技术允许多个操作系统和应用程序共存于一个物理计算平台上,共享同一个芯片的计算资源。它为用户提供良好的安全性和隔离性,还支持如热迁移等高灵活特性。vMLU 帮助提高云计算密度,也使数据中心的 IT 资产管理更灵活。

除了虚拟化基本的资源共享特性,思元 270 首推的 SR-IOV 虚拟化技术,支持运行在云服务器上的多个实例直接共享智能芯片的硬件资源。传统虚拟化系统中大量的资源和时间损耗在 Hypervisor 或 VMM 软件层面,PCIe 设备的性能优势无法彻底发挥。而 SR-IOV 的价值在于消除这一软件瓶颈,助力多个虚拟机实现高效物理资源共享。

与传统图形加速卡的 vGPU 所采用的虚拟化技术不同,思元 270 采用「非基于时间片的共享」方式,因为其没有因时间片切换上下文带来的性能损失,能充分保证各 VF 独立的服务质量,彼此完全独立运行互不影响。

硬件环境:: 1x MLU270-S4, Xeon Gold 6140@ 2.30GHz, 测试环境:Cambricon-MLU270 1.2.5,操作系统:Centos7.6

SDK 版本:Cambricon Neuware-mlu270-1.2.5 + neuware-mlu270-driver-4.1.0,框架:Caffe

另外,SR-IOV 还可以避免因分时复用切换应用带来的性能开销。如上图显示,vMLU 搭配 Docker 或 VM 运行时,单个 VF 业务性能保持在硬件性能的 91% 以上。这使得用户在多模型并行时,对各 VF 可以做出更准确的服务质量 (QoS) 预期,而不必考虑多模型时的拥塞或切换带来的性能开销。

基于 SR-IOV 的 vMLU:更好的租户隔离性

虚拟化技术被数据中心广泛采用,除了因为其提供了对资源共享的能力(提供了更好的密度性能),也因为相对于其它技术 (如 docker), 虚拟化提供了更好的隔离性和安全性。寒武纪 vMLU 基于 SR-IOV 的虚拟化技术可以帮助云用户实现更好的隔离特性,具体优势如下:

首先,资源独立,互不干扰,能确保服务质量(QoS);其次,多任务时,没有无队列阻塞的烦恼;再次,其具备独立内存资源,各 VF 之间互不可见;最后,它的部署相对简单,不需要对开源软件成分进行修改。

面向 Docker-container 的 SR-IOV flat:更高效部署方式

除了对 VM 提供虚拟化支持,寒武纪虚拟化技术还对 docker-container 提供基于 SR-IOV 的虚拟化扩展 (SR-IOV flat 模式),用于多个 containers 共享一块 MLU 卡的计算能力, 同时,提供了基于 kubernetes 的管理插件。该功能为那些对隔离性和安全性需求没那么高的数据中心提供更轻量级部署方式。

下图对比了在 container 环境中经常被用到的 GPU 弹性共享池技术和 SR-IOV Flat 技术。

Elastic GPUs shared pools vs. SR-IOV flat

从上图可以看出,寒武纪 vMLU 所采用的 SR-IOV-Flat 技术在隔离性, QoS 上都有明显优势。

VF 热迁移 (Live Migration):帮助 AI 云应用达到 99.99% 的高可用服务级别

想要达到 99.99% 的高 QoS,要求云业务的年意外停机时间不超过 53 分钟。热迁移(Live Migration)功能可以在虚机及其应用程序仍在运行时将其移动到另一台主机。AI 计算资源是否具备热迁移能力是评价其在数据中心的群集配置策略、平衡主机的工作负载、容灾处理风方面能力的关键指标。

寒武纪 vMLU 虚拟化技术为思元 270 提供了热迁移的能力, 下图为 MLU 在热迁移发生时芯片内部的数据流图:

在热迁移(Live Migration)功能的作用下,AI 算力实现不停机转移,思元 270 可助力 AI 云实现 99.99% 的高服务可用性。

基于寒武纪 vMLU 虚拟化技术,并支持 SR-IOV 功能的寒武纪思元 270 云端智能芯片正式推出,其优质租户隔离、应用热迁移特性,可为云服务提供商提供更加安全、优质的 AI 计算资源。据悉,搭载虚拟化 vMLU 技术的寒武纪思元 270 已经与金山云合作并开始内部部署,预计未来 1 至 2 个月会正式上线,敬请期待。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
容器服务
腾讯云容器服务(Tencent Kubernetes Engine, TKE)基于原生 kubernetes 提供以容器为核心的、高度可扩展的高性能容器管理服务,覆盖 Serverless、边缘计算、分布式云等多种业务部署场景,业内首创单个集群兼容多种计算节点的容器资源管理模式。同时产品作为云原生 Finops 领先布道者,主导开源项目Crane,全面助力客户实现资源优化、成本控制。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档