专栏首页机器之心寒武纪vMLU技术面世,首推SR-IOV虚拟化功能

寒武纪vMLU技术面世,首推SR-IOV虚拟化功能

机器之心发布

机器之心编辑部

2020 年 4 月,国内 AI 芯片独角兽寒武纪对外宣布,旗下云端智能芯片及加速卡系列思元 270 将正式基于寒武纪虚拟 MLU(vMLU)技术,首次支持 SR-IOV 功能。

据了解,SR-IOV 功能具备更好的租户隔离、应用热迁移特性,可为云服务供应商提供安全、优质的 AI 计算资源,以充分保障用户在 AI 领域的投资。思元 270 是寒武纪首款支持 SR-IOV 虚拟化功能的云端智能芯片产品。据悉,寒武纪未来的云端智能芯片,都会支持 SR-IOV 功能。

瞄准用户痛点:如何高效利用 AI 计算资源

思元 270 是寒武纪推出的面向云端的智能芯片,其支持全面的 AI 推断场景部署,包括视觉、语音、自然语言处理等多样化的人工智能应用。思元 270 系列支撑数据中心、专业场景乃至桌面等多元化部署场景。

在这些部署场景中,面向云端部署、多样化人工智能推断、以及配合寒武纪边缘侧板卡进行应用开发时,如何对 AI 计算资源的有效利用是用户首要关心的问题。也是寒武纪本次推出 SR-IOV 虚拟化功能的核心诉求:

  • 面向云端部署:在云部署环境下,云服务提供商 (CSP) 帮助海量租户以高性价比、高可用性的方式提供计算、存储、网络资源的服务,在此基础上还可提供高达 99.99% 的高可用服务级别。从 Hypervisor 和底层硬件上对资源进行高效共享以及多租户、实例进行相互隔离,成为了 AI 云服务的基本诉求。
  • 面向复杂的人工智能推断:在 AI 应用进行部署时,用户通常会遇到业务逻辑较为复杂的场景,需借助多个网络模型来构建 AI 辅助决策系统。为保证服务器节点内的服务质量,通常会采用一机多卡的部署方式。但计算成本和服务质量需要兼顾时,用户会希望用单张板卡并行多个模型来解决问题。
  • 面向边缘、端侧应用开发:寒武纪产品线已在云、边、端三个维度实现全面覆盖,在面向边缘侧和端侧的应用开发过程中,用户经常会受部署侧的 CPU、产品形态或网络条件的限制,无法直接在最终部署的设备上进行开发。寒武纪支持采用端云一体的开发环境帮助用户快速将应用落地,而帮助云侧计算资源高效、合理的分配给应用开发组,是思元 270 虚拟 MLU 的开发目标之一。

寒武纪首推 SR-IOV 功能:让 AI 云、业务部署和应用开发更灵活、高效、安全

为实现以上诉求,思元 270 采用寒武纪虚拟化技术——vMLU,该虚拟化技术允许多个操作系统和应用程序共存于一个物理计算平台上,共享同一个芯片的计算资源。它为用户提供良好的安全性和隔离性,还支持如热迁移等高灵活特性。vMLU 帮助提高云计算密度,也使数据中心的 IT 资产管理更灵活。

除了虚拟化基本的资源共享特性,思元 270 首推的 SR-IOV 虚拟化技术,支持运行在云服务器上的多个实例直接共享智能芯片的硬件资源。传统虚拟化系统中大量的资源和时间损耗在 Hypervisor 或 VMM 软件层面,PCIe 设备的性能优势无法彻底发挥。而 SR-IOV 的价值在于消除这一软件瓶颈,助力多个虚拟机实现高效物理资源共享。

与传统图形加速卡的 vGPU 所采用的虚拟化技术不同,思元 270 采用「非基于时间片的共享」方式,因为其没有因时间片切换上下文带来的性能损失,能充分保证各 VF 独立的服务质量,彼此完全独立运行互不影响。

硬件环境:: 1x MLU270-S4, Xeon Gold 6140@ 2.30GHz, 测试环境:Cambricon-MLU270 1.2.5,操作系统:Centos7.6

SDK 版本:Cambricon Neuware-mlu270-1.2.5 + neuware-mlu270-driver-4.1.0,框架:Caffe

另外,SR-IOV 还可以避免因分时复用切换应用带来的性能开销。如上图显示,vMLU 搭配 Docker 或 VM 运行时,单个 VF 业务性能保持在硬件性能的 91% 以上。这使得用户在多模型并行时,对各 VF 可以做出更准确的服务质量 (QoS) 预期,而不必考虑多模型时的拥塞或切换带来的性能开销。

基于 SR-IOV 的 vMLU:更好的租户隔离性

虚拟化技术被数据中心广泛采用,除了因为其提供了对资源共享的能力(提供了更好的密度性能),也因为相对于其它技术 (如 docker), 虚拟化提供了更好的隔离性和安全性。寒武纪 vMLU 基于 SR-IOV 的虚拟化技术可以帮助云用户实现更好的隔离特性,具体优势如下:

首先,资源独立,互不干扰,能确保服务质量(QoS);其次,多任务时,没有无队列阻塞的烦恼;再次,其具备独立内存资源,各 VF 之间互不可见;最后,它的部署相对简单,不需要对开源软件成分进行修改。

面向 Docker-container 的 SR-IOV flat:更高效部署方式

除了对 VM 提供虚拟化支持,寒武纪虚拟化技术还对 docker-container 提供基于 SR-IOV 的虚拟化扩展 (SR-IOV flat 模式),用于多个 containers 共享一块 MLU 卡的计算能力, 同时,提供了基于 kubernetes 的管理插件。该功能为那些对隔离性和安全性需求没那么高的数据中心提供更轻量级部署方式。

下图对比了在 container 环境中经常被用到的 GPU 弹性共享池技术和 SR-IOV Flat 技术。

Elastic GPUs shared pools vs. SR-IOV flat

从上图可以看出,寒武纪 vMLU 所采用的 SR-IOV-Flat 技术在隔离性, QoS 上都有明显优势。

VF 热迁移 (Live Migration):帮助 AI 云应用达到 99.99% 的高可用服务级别

想要达到 99.99% 的高 QoS,要求云业务的年意外停机时间不超过 53 分钟。热迁移(Live Migration)功能可以在虚机及其应用程序仍在运行时将其移动到另一台主机。AI 计算资源是否具备热迁移能力是评价其在数据中心的群集配置策略、平衡主机的工作负载、容灾处理风方面能力的关键指标。

寒武纪 vMLU 虚拟化技术为思元 270 提供了热迁移的能力, 下图为 MLU 在热迁移发生时芯片内部的数据流图:

在热迁移(Live Migration)功能的作用下,AI 算力实现不停机转移,思元 270 可助力 AI 云实现 99.99% 的高服务可用性。

基于寒武纪 vMLU 虚拟化技术,并支持 SR-IOV 功能的寒武纪思元 270 云端智能芯片正式推出,其优质租户隔离、应用热迁移特性,可为云服务提供商提供更加安全、优质的 AI 计算资源。据悉,搭载虚拟化 vMLU 技术的寒武纪思元 270 已经与金山云合作并开始内部部署,预计未来 1 至 2 个月会正式上线,敬请期待。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 业界 | 让环境适应人类:百度展示AI时代的交互设计

    百度自 2010 年开始布局 AI 技术,先后开展了自然语言处理、计算机视觉、机器学习、数据挖掘、知识图谱等 AI 技术的研发,随后开始探讨 AI 可能对人们生...

    机器之心
  • Dota 2被攻陷!OpenAI 人工智能5V5模式击败人类玩家(4000分水平)

    我们团队构建的模型,OpenAI Five,已经击败业余 Dota2 团队了。虽然如今是在有限制的情况下,但我们计划到 8 月份在有限英雄池下击败 TI 赛中的...

    机器之心
  • 市北GMIS | 腾讯优图贾佳亚:人工智能多模态的未来

    之前很多媒体、投资人、各类公司的创始人大佬问我一些问题:人工智能发展到现在,大家从不知道到知道,再到后来知道它有局限性、有发展性,那人工智能现在处于什么阶段呢?...

    机器之心
  • Kd-Trees

    KD 树有许多应用,从对天文物体进行分类到计算机动画,再到加速神经网络,再到挖掘数据再到图像检索等。

    凝神长老
  • 【61期】MySQL行锁和表锁的含义及区别(MySQL面试第四弹)

    对于行锁和表锁的含义区别,在面试中应该是高频出现的,我们应该对MySQL中的锁有一个系统的认识,更详细的需要自行查阅资料,本篇为概括性的总结回答。

    良月柒
  • 万万没想到,无人车其实是个劳动密集型产业

    李杉 唐旭 编译整理 量子位 出品 | 公众号 QbitAI 病友们都在看杂志、刷Instagram的时候,Shari Forrest打开了手机上的一个app,...

    量子位
  • 万万没想到,无人车其实是个劳动密集型产业

    54岁的Forrest并非工程师或程序员,她靠撰写教材来谋生。尽管如此,在平时有空时,Forrest依然会在Mighty AI上登录,然后把自己的时间花在给行人...

    华章科技
  • 陆奇激动地对世界说,百度就是中国的谷歌

    百度今天可谓在美国拉斯维加斯出尽了风头。 ? CES大幕还没有开启,百度就在美国拉斯维加斯召开了2018百度世界大会。百度集团总裁兼首席运营官、董事会副主席陆奇...

    AI科技大本营
  • 让世界充满人工智能——谷歌CEO的梦想

    GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,雷锋网将发布“人工智能&机器人Top25创新企...

    AI科技评论
  • Spring-AOP实践 - 统计访问时间

    公司的项目有的页面超级慢,20s以上,不知道用户会不会疯掉,于是老大说这个页面要性能优化。于是,首先就要搞清楚究竟是哪一步耗时太多。 我采用spring aop...

    Ryan-Miao

扫码关注云+社区

领取腾讯云代金券