业界 | ARM推出新一代移动端CPU和GPU:提升机器学习效率

选自anandtech

机器之心编译

参与:吴攀、蒋思源

在 PC 制造商展示最新和最好的英特尔 CPU 计算机的 2017 台北国际电脑展(Computex Taipei 2017)举办期间,其移动端的竞争对手 ARM 在另一个地方制造了一个大新闻:推出了新一代 ARM CPU 和 GPU。ARM 官方宣布 Cortex-A75 是其新的旗舰级移动处理器设计;据称这款芯片相比于当前的 A73 有 22% 的性能提升。与其一起发布的还有新的 Cortex-55(其功率效率超过了 ARM 之前设计的所有中端 CPU)和 Mali-G72 图形处理器(相比于前一代 G71 有 25% 的效率提升)。这样的效率提升是演进式的且可预测的,但这个新阵容的革命性的地方还是在人工智能方面:这是专为解决板上人工智能和机器学习而设计的第一套处理元件。

另外,ARM 去年为提升增强现实和虚拟现实的高功耗任务而进行的更新也得到了进一步的扩展。AnandTech 通过 5 页的长文对 ARM 的新一代 CPU 进行了解读,机器之心对这篇文章的 Introduction 部分进行了编译介绍,同时也进行了一定程度的扩展,更多详情请访问文末链接查阅。

ARM 正在快速发展,按每年一次的节奏推出新的处理器 IP。它发展这么快,部分原因是其在非常多的行业有非常多的合作伙伴,另外一部分是因为它必须保证自己的 IP 能跟上技术的发展和需求——从更高质量的显示到人工智能。为了跟上发展步伐,ARM 在不同的地方设立了多个设计团队并行研发。

在去年举办的 ARM 年度 TechDay 上,ARM 推出了 Mali-G71 GPU(第一款使用其新的 Bifrost GPU 架构的 GPU)和 Cortex-A73 CPU(在移动端替代 A72 的 CPU)。而值得注意的是,这是新的 little core。

一年过去了,又是一届 TechDay,ARM 又推出了新的 ARM IP。在过去几年中,AnandTech 仔细深入了解这些最新的技术,包括 DynamIQ、Mali-G72 GPU、Cortex-A75 和 Cortex-A55 等。

A57 与 A53 一起已经被使用了好几年,它们都可以自己单独作为处理器或作为 big.LITTLE 配置中的 little core。它们取得了巨大的成功,ARM 发出了 40 多份授权许可,在短短 3 年之内就有 17 亿产品出货。但在这段时间内,ARM 每年都在推出新的 big core,从 A57 到 A72 再到 A73。而 A53 则一直没变,并且 big core 和 little core 之间的性能鸿沟则在持续拉大。

当时我们预测,A55 的重点应该是性能提升。A53 的 dual-issue、in-order core 已经实现了很好的数据通量;这也是 A55 的起点,所以 ARM 的重点放到了内存系统的提升上。新的数据预取器和集成二级缓存将延迟减少了 50%,另外还有一个额外的三级缓存层为 A55 带来了显著更好的内存性能——在 LMBench 内存复制测试中带来了近 2 倍的提升。由 ARM 提供的数据也显示,相比于 A53,A55 在 SPECint 2006 上实现了 18% 的性能增益以及在 SPECfp 2006 也实现了 38% 的性能增益。这些数字以及在表格中给出的其它数字是在同样的频率、同样的一级缓存和二级缓存大小、同样的编译器等情况下比较的。实际的增益应该还会更高一点一点,因为合作伙伴的 SoC 设计还将受益于额外添加的 L3 缓存。

但这些额外的性能提升并不是免费得来的。A55 的功耗相比于 A53 提升了 3%(同样的工艺和同样的工作频率)。但因为其更高的性能,在运行 SPECint 2000 时功效仍然提升了 15%。

A55 还包含多个新特性,可以帮助其向新市场扩展。虚拟主机扩展(VHE:Virtual Host Extensions)对汽车市场和先进的安全与可靠性功能而言非常重要,包括架构上的 RAS 支持和用于各级缓存的 ECC/parity,这些对许多应用而言都非常重要,包括自动化和工业应用。它也有一些用于基础架构应用的新功能,包括一个新的 Int8 点积指令(可用于加速神经网络)。因为 A55 兼容 DynamIQ,所以它也可以进行 cache stashing 和接入 256 位 AMBA 5 CHI 端口。

ARM 去年推出 A73 时谈到了持续性能表现的提升,以及紧密的热封套。换句话说,A73 的提升不只是在功率效率上面。而 A75 则走向了另一个方向:利用 A73 的热余量(thermal headroom),ARM 的重点是在提升性能的同时保持和 A73 同样的效率。

我们之前的性能测试给出了 A73 和 A72 比较的混乱结果——在整型数任务上 A73 超过 A72 一点点,而在浮点数负载下则落后 A72 一点;鉴于它们的微架构之间的显著不同,所以这样的结果并不让人惊讶。A75 的表现则好多了,至少在 ARM 的数据上是这样:其在整型数和浮点数任务以及 memory streaming 上的表现都显著优于 A73。

上图给出了在 10nm 节点上以 3 GHz 速度运行的 A75 实现了在 10nm 节点上以 2.8 GHz 速度运行的 A73 更好的性能和同样的效率,这意味着 A75 功率更大。但基于这张简单的图,我们很难说清超过多少。我们知道 A73 在使用 4 个核时有热限制(尽管比 A72 的少),所以 A75 肯定一样好。但这并不是一个常见情形。大多数移动负载在一个时间点一般仅在较短时间内使用 1 到 2 个核。ARM 显然使用了 A73 的额外热余量来提升性能,而不会给持续性能带来负面影响。

ARM 希望将 A75 推到更大的 form-factor 设备,且功率预算通过将主频提高而超过移动端的 750mW/core。这就像 Chromebook 或其他 2 合 1 的便捷式产品。在 1W/core 功率上,A75 要比 A73 高 25% 的性能,而在 2W/core 的功率上,A75 的优势在于运行 SPECint 2006 时效率提升了 30%。这些数字表明了将性能仅仅和主频挂钩并不好的原因——因为动态功率呈指数级变化。

ARM 针对适用于移动端的 A73 设计,很大一部分聚焦于能源效率和移除一些对其他应用有用的特征以简化设计,包括在一级缓存移除 ECC 和 256 位 AMBA 5 CHI 端口的选项等。因为有了 A75,A72 就有了一条明确的升级路径。对于服务器和基础架构市场,A75 支持所有级别缓存的 ECC/parity 和用于连接到大型 CCI、CCN 或 CMN fabrics 的 AMBA 5 CHI。对于自动化和其他关键安全应用,该芯片有架构性 RAS 支持,这样就保护了免受数据中毒的影响并提升了错误管理。在原文接下来的几页中,其深入探讨了 ARM 新 IP 的技术细节,包括 DynamIQ、Cortex-A75 和 Cortex-A55。

新的 Mali GPU 拥有 32 个渲染核心、提升了 25% 的能源效率和 20% 的性能密度(performance density/每 mm²空间的性能)。Mali-G72 是 ARM 提升机器学习效率的核心,ARM 声称其在机器学习基准上要比 G71 优秀 17%。其公司的优化设计更多地是为加速推断引擎而不是训练引擎而量身定做。也就是说,ARM 的芯片更多地用于累积机器学习性能而不是发展它们,因此其能更好地支持移动应用。而训练人工智能可以更多地交给英伟达和 AMD 的 GPU 或谷歌为 TensorFlow 定制的 TPU。

原文链接:http://www.anandtech.com/show/11441/dynamiq-and-arms-new-cpus-cortex-a75-a55

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-05-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

大数据安全分析(理念篇)

一、引言 单纯的防御措施无法阻止蓄意的攻击者,这已经是大家都认同的事实,应对挑战业界有了诸多方面的探索和实践,而其中最有趣的就非安全分析莫属了,围绕着安全分析展...

35750
来自专栏奇点大数据

大数据变现十日谈之七:AB测试

AB测试在很多互联网产品中都很常用,甚至有很多老牌的软件企业也从这种方式中汲取经验。 AB测试指的是什么呢? 在我看来,AB测试是一种评价体系的核心思想。大致的...

35460
来自专栏Linux Python 加油站

2017年Python开发大事件年度盘点

在马哥Python的万人学习社群做了个调研,盘点了一下2017年Python的重要事件,希望抛砖引玉。

18440
来自专栏互联网数据官iCDO

使用归因模型前,要先填上这8个坑!

仲志成,iCDO原创志愿者 在互联网数据领域,归因模型常被提及。如何用对数据,如何真正让归因模型产生价值,作者为我们总结了8个坑。让我们一起来看看自己有没有落入...

56080
来自专栏架构师之路

1分钟了解协同过滤,pm都懂了

工程架构方向的程序员,看到推荐/搜索/广告等和算法相关的技术,心中或多或少有一丝胆怯。但认真研究之后,发现其实没有这么难。 今天的1分钟系列,给大家介绍下推荐系...

38740
来自专栏VRPinea

AR丧尸游戏《The Walking Dead: Our World》丨想尝尝被丧尸吃掉脑子的感觉吗?

提到丧尸,大家会想到什么?《釜山行》、《行尸走肉》......相必很多看过丧尸类电影或电视剧的小伙伴,都曾想象过生活在一个充满丧尸的世界里,用各种武器去屠杀漫山...

19020
来自专栏Java学习网

4个费劲心思却走向编程地狱的陷阱

4个费劲心思却走向编程地狱的陷阱 优化你的代码、创建编程抽象、编写跨平台的应用程序,几乎所有遵守这些戒律的程序员不出意外都拿着一等票去往了一个没有休憩时间,项目...

26180
来自专栏AI科技大本营的专栏

盘点 | 2017 年 关于 Python 的 13 件大事

作者 | 汤哥在北京 【AI科技大本营导读】Python被称为是最接近AI的语言。几乎所有的深度学习框架都要用到Python来编程,这是所有转型AI的程序员都绕...

37390
来自专栏java一日一条

4个费劲心思却走向编程地狱的陷阱

优化你的代码、创建编程抽象、编写跨平台的应用程序,几乎所有遵守这些戒律的程序员不出意外都拿着一等票去往了一个没有休憩时间,项目总能准时完成,代码库永远不会过时,...

9920
来自专栏编程软文

人脸识别到底怎么用

前段时间和第三方人脸识别供应商对接,写了一个demo,主要功能是人脸识别准确率,增加底库,删除底库,人脸比对等等。让我对人脸识别有了一个新的意识。后来公司需...

54810

扫码关注云+社区

领取腾讯云代金券