前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >业界 | ARM推出新一代移动端CPU和GPU:提升机器学习效率

业界 | ARM推出新一代移动端CPU和GPU:提升机器学习效率

作者头像
机器之心
发布2018-05-07 16:29:05
9540
发布2018-05-07 16:29:05
举报
文章被收录于专栏:机器之心机器之心

选自anandtech

机器之心编译

参与:吴攀、蒋思源

在 PC 制造商展示最新和最好的英特尔 CPU 计算机的 2017 台北国际电脑展(Computex Taipei 2017)举办期间,其移动端的竞争对手 ARM 在另一个地方制造了一个大新闻:推出了新一代 ARM CPU 和 GPU。ARM 官方宣布 Cortex-A75 是其新的旗舰级移动处理器设计;据称这款芯片相比于当前的 A73 有 22% 的性能提升。与其一起发布的还有新的 Cortex-55(其功率效率超过了 ARM 之前设计的所有中端 CPU)和 Mali-G72 图形处理器(相比于前一代 G71 有 25% 的效率提升)。这样的效率提升是演进式的且可预测的,但这个新阵容的革命性的地方还是在人工智能方面:这是专为解决板上人工智能和机器学习而设计的第一套处理元件。

另外,ARM 去年为提升增强现实和虚拟现实的高功耗任务而进行的更新也得到了进一步的扩展。AnandTech 通过 5 页的长文对 ARM 的新一代 CPU 进行了解读,机器之心对这篇文章的 Introduction 部分进行了编译介绍,同时也进行了一定程度的扩展,更多详情请访问文末链接查阅。

ARM 正在快速发展,按每年一次的节奏推出新的处理器 IP。它发展这么快,部分原因是其在非常多的行业有非常多的合作伙伴,另外一部分是因为它必须保证自己的 IP 能跟上技术的发展和需求——从更高质量的显示到人工智能。为了跟上发展步伐,ARM 在不同的地方设立了多个设计团队并行研发。

在去年举办的 ARM 年度 TechDay 上,ARM 推出了 Mali-G71 GPU(第一款使用其新的 Bifrost GPU 架构的 GPU)和 Cortex-A73 CPU(在移动端替代 A72 的 CPU)。而值得注意的是,这是新的 little core。

一年过去了,又是一届 TechDay,ARM 又推出了新的 ARM IP。在过去几年中,AnandTech 仔细深入了解这些最新的技术,包括 DynamIQ、Mali-G72 GPU、Cortex-A75 和 Cortex-A55 等。

A57 与 A53 一起已经被使用了好几年,它们都可以自己单独作为处理器或作为 big.LITTLE 配置中的 little core。它们取得了巨大的成功,ARM 发出了 40 多份授权许可,在短短 3 年之内就有 17 亿产品出货。但在这段时间内,ARM 每年都在推出新的 big core,从 A57 到 A72 再到 A73。而 A53 则一直没变,并且 big core 和 little core 之间的性能鸿沟则在持续拉大。

当时我们预测,A55 的重点应该是性能提升。A53 的 dual-issue、in-order core 已经实现了很好的数据通量;这也是 A55 的起点,所以 ARM 的重点放到了内存系统的提升上。新的数据预取器和集成二级缓存将延迟减少了 50%,另外还有一个额外的三级缓存层为 A55 带来了显著更好的内存性能——在 LMBench 内存复制测试中带来了近 2 倍的提升。由 ARM 提供的数据也显示,相比于 A53,A55 在 SPECint 2006 上实现了 18% 的性能增益以及在 SPECfp 2006 也实现了 38% 的性能增益。这些数字以及在表格中给出的其它数字是在同样的频率、同样的一级缓存和二级缓存大小、同样的编译器等情况下比较的。实际的增益应该还会更高一点一点,因为合作伙伴的 SoC 设计还将受益于额外添加的 L3 缓存。

但这些额外的性能提升并不是免费得来的。A55 的功耗相比于 A53 提升了 3%(同样的工艺和同样的工作频率)。但因为其更高的性能,在运行 SPECint 2000 时功效仍然提升了 15%。

A55 还包含多个新特性,可以帮助其向新市场扩展。虚拟主机扩展(VHE:Virtual Host Extensions)对汽车市场和先进的安全与可靠性功能而言非常重要,包括架构上的 RAS 支持和用于各级缓存的 ECC/parity,这些对许多应用而言都非常重要,包括自动化和工业应用。它也有一些用于基础架构应用的新功能,包括一个新的 Int8 点积指令(可用于加速神经网络)。因为 A55 兼容 DynamIQ,所以它也可以进行 cache stashing 和接入 256 位 AMBA 5 CHI 端口。

ARM 去年推出 A73 时谈到了持续性能表现的提升,以及紧密的热封套。换句话说,A73 的提升不只是在功率效率上面。而 A75 则走向了另一个方向:利用 A73 的热余量(thermal headroom),ARM 的重点是在提升性能的同时保持和 A73 同样的效率。

我们之前的性能测试给出了 A73 和 A72 比较的混乱结果——在整型数任务上 A73 超过 A72 一点点,而在浮点数负载下则落后 A72 一点;鉴于它们的微架构之间的显著不同,所以这样的结果并不让人惊讶。A75 的表现则好多了,至少在 ARM 的数据上是这样:其在整型数和浮点数任务以及 memory streaming 上的表现都显著优于 A73。

上图给出了在 10nm 节点上以 3 GHz 速度运行的 A75 实现了在 10nm 节点上以 2.8 GHz 速度运行的 A73 更好的性能和同样的效率,这意味着 A75 功率更大。但基于这张简单的图,我们很难说清超过多少。我们知道 A73 在使用 4 个核时有热限制(尽管比 A72 的少),所以 A75 肯定一样好。但这并不是一个常见情形。大多数移动负载在一个时间点一般仅在较短时间内使用 1 到 2 个核。ARM 显然使用了 A73 的额外热余量来提升性能,而不会给持续性能带来负面影响。

ARM 希望将 A75 推到更大的 form-factor 设备,且功率预算通过将主频提高而超过移动端的 750mW/core。这就像 Chromebook 或其他 2 合 1 的便捷式产品。在 1W/core 功率上,A75 要比 A73 高 25% 的性能,而在 2W/core 的功率上,A75 的优势在于运行 SPECint 2006 时效率提升了 30%。这些数字表明了将性能仅仅和主频挂钩并不好的原因——因为动态功率呈指数级变化。

ARM 针对适用于移动端的 A73 设计,很大一部分聚焦于能源效率和移除一些对其他应用有用的特征以简化设计,包括在一级缓存移除 ECC 和 256 位 AMBA 5 CHI 端口的选项等。因为有了 A75,A72 就有了一条明确的升级路径。对于服务器和基础架构市场,A75 支持所有级别缓存的 ECC/parity 和用于连接到大型 CCI、CCN 或 CMN fabrics 的 AMBA 5 CHI。对于自动化和其他关键安全应用,该芯片有架构性 RAS 支持,这样就保护了免受数据中毒的影响并提升了错误管理。在原文接下来的几页中,其深入探讨了 ARM 新 IP 的技术细节,包括 DynamIQ、Cortex-A75 和 Cortex-A55。

新的 Mali GPU 拥有 32 个渲染核心、提升了 25% 的能源效率和 20% 的性能密度(performance density/每 mm²空间的性能)。Mali-G72 是 ARM 提升机器学习效率的核心,ARM 声称其在机器学习基准上要比 G71 优秀 17%。其公司的优化设计更多地是为加速推断引擎而不是训练引擎而量身定做。也就是说,ARM 的芯片更多地用于累积机器学习性能而不是发展它们,因此其能更好地支持移动应用。而训练人工智能可以更多地交给英伟达和 AMD 的 GPU 或谷歌为 TensorFlow 定制的 TPU。

原文链接:http://www.anandtech.com/show/11441/dynamiq-and-arms-new-cpus-cortex-a75-a55

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-05-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
轻量应用服务器
轻量应用服务器(TencentCloud Lighthouse)是新一代开箱即用、面向轻量应用场景的云服务器产品,助力中小企业和开发者便捷高效的在云端构建网站、Web应用、小程序/小游戏、游戏服、电商应用、云盘/图床和开发测试环境,相比普通云服务器更加简单易用且更贴近应用,以套餐形式整体售卖云资源并提供高带宽流量包,将热门开源软件打包实现一键构建应用,提供极简上云体验。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档