麒麟990或将采用的达芬奇架构NPU到底是什么？一文带你读懂

文章来源：企鹅号 - 科技V力

自6月份麒麟810发布之后，华为的又一“秘密武器”——达芬奇架构NPU成为行业热议焦点。目前Nova5、荣耀9X系列已经率先搭载了麒麟810，且无一例外均位于AI-benchmark跑分榜单前列，充分展示出这款NPU在AI计算力上的确十分强劲。

从目前曝光的信息来看，，9月6日新一代旗舰级芯片依旧会在德国IFA上亮相，名为麒麟990，很多业内人士预测这款芯片将搭载达芬奇架构NPU，以确保麒麟990保持行业领先的AI计算能力，同时赋能更多更具实时性的AI体验。

那么达芬奇架构到底是什么，为什么会被称为“秘密武器”，又将给麒麟990带来哪些卓越能力？我们今天就来深度解析一下。

达芬奇架构的核心优势是什么？如何更好地赋能麒麟990？

达芬奇架构，是华为自研的面向AI计算特征的全新计算架构，具备高算力、高能效、灵活可裁剪的特性，是实现万物智能的重要基础。具体来说，达芬奇架构采用3D Cube针对矩阵运算做加速，大幅提升单位功耗下的AI算力，每个AI Core可以在一个时钟周期内实现4096个MAC操作，相比传统的CPU和GPU实现数量级的提升。

3D Cube

同时，为了提升AI计算的完备性和不同场景的计算效率，达芬奇架构还集成了向量、标量、硬件加速器等多种计算单元。支持多种精度计算，支撑训练和推理两种场景的数据精度要求，实现AI的全场景需求覆盖。

在如智能手机等实际端侧AI应场景中，AI算力与功耗的协调是至关重要的，一般来讲更高的AI算力意味着更大的功耗，因此智能手机的续航常常使AI算力受限。而有了达芬奇架构NPU，这一状况将得到改善，如果麒麟990能够搭载达芬奇架构NPU，麒麟芯片或将再次迎来震动行业的算力升级。

DaVinci Core是如何实现高效AI计算的？

在2018年全联接大会上，华为推出AI芯片昇腾310，这是达芬奇架构的首次亮相，昇腾310相当于AI芯片中的NPU。其中，DaVinci Core只是NPU的一个部分，DaVinci Core内部还细分成很多单元，包括核心的3D Cube、Vector向量计算单元、Scalar标量计算单元等，它们各自负责不同的运算任务实现并行化计算模型，共同保障AI计算的高效处理。

3D Cube矩阵乘法单元：算力担当

刚才已经提到，矩阵乘是AI计算的核心，这部分运算由3D Cube完成，Buffer L0A,L0B,L0C则用于存储输入矩阵和输出矩阵数据，负责向Cube计算单元输送数据和存放计算结果。

Vector向量计算单元：灵活的多面手

虽然Cube的算力很强大，但只能完成矩阵乘运算，还有很多计算类型要依靠Vector向量计算单元来完成。Vector的指令相对来说非常丰富，可以覆盖各种基本的计算类型和许多定制的计算类型.

Scalar标量计算单元：流程控制的管家

Scalar标量运算单元主要负责AI Core的标量运算，功能上可以看作一个小CPU，完成整个程序的循环控制，分支判断，Cube/Vector等指令的地址和参数计算以及基本的算术运算等。

3D Cube计算方式，有哪些独特的优势？

不同于以往的标量、矢量运算模式，华为达芬奇架构以高性能3D Cube计算引擎为基础，针对矩阵运算进行加速，大幅提高单位面积下的AI算力，充分激发端侧AI的运算潜能。以两个N*N的矩阵A*B 乘法为例：如果是N个1D 的MAC，需要N^2（即N的2次方）的cycle数；如果是1个N^2的2D MAC阵列，需要N个Cycle；如果是1个N维3D的Cube，只需要1个Cycle。

（图中的计算单元的数量只是示意。实际可灵活设计）

华为创新设计的达芬奇架构将大幅提升算力，16*16*16的3D Cube能够显著提升数据利用率，缩短运算周期，实现更快更强的AI运算。这是什么意思呢？举例来说，同样是完成4096次运算，2D结构需要64行*64列才能计算，3D Cube只需要16*16*16的结构就能算出。其中，64*64结构带来的问题是：运算周期长、时延高、利用率低。

达芬奇架构的这一特性也完美体现在麒麟810上。作为首款采用达芬奇架构NPU的手机SoC芯片，麒麟810实现强劲的AI算力，在单位面积上实现最佳能效，FP16精度和INT8量化精度业界领先，搭载这款SoC芯片的华为Nova 5、Nova 5i Pro及荣耀9X手机已上市，为广大消费者提供多种精彩的AI应用体验。

更强算力的麒麟990，开启互联互通的智慧新场景

一直以来，麒麟芯片的AI实力之所以受到人们的认可，除了强劲的AI计算力领先行业，结合华为手机实现的众多应用场景也受到了高度赞扬。达芬奇架构作为华为自研架构，在应用适应性方面与华为的理念一脉相承，基于灵活可扩展的特性，达芬奇架构能够满足端侧、边缘侧及云端的应用场景，可用于小到几十毫瓦，大到几百瓦的训练场景，横跨全场景提供最优算力，麒麟990所使用到的只是端侧AI最基本的一部分。

并且，想要真正实现万物互联的AI生态，离不开广大的AI开发者，那么选择开发统一架构就是一个非常关键的决策了。对于广大开发者来说，基于达芬奇架构的统一性，在面对云端、边缘侧、端侧等全场景应用开发时，只需要进行一次算子开发和调试，就可以应用于包括麒麟芯片在内的不同平台，大幅降低了迁移成本。

如今，我们体验最多的AI应用大多来源于智能手机，但对于整个AI生态来说，智能手机只是一个开端，未来更多的AI应用涌现、跨平台迁移才能真正实现无处不在的智慧生活。因此，如果麒麟990真的搭载了达芬奇架构NPU，不止是手机算力提升那么简单，同时还以AI之力加速万物互联的智慧时代的到来。

最后，据闻8月23日采用达芬奇架构的又一款“巨无霸”将正式商用发布，这就是最新款的AI芯片Ascend 910，同时与之配套的新一代AI开源计算框架MindSpore也将同时亮相，我们共同期待。

发表于: 2019-08-212019-08-21 20:47:52
原文链接：https://kuaibao.qq.com/s/20190821A0OJV300?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

麒麟990或将采用的达芬奇架构NPU到底是什么？一文带你读懂

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐