业界 | 英特尔发文Caffe2在CPU上的性能检测：将实现最优的推理性能

机器之心

发布于 2018-05-07 14:57:26

8970

发布于 2018-05-07 14:57:26

文章被收录于专栏：机器之心

选自 Intel Blog

作者：Andres Rodriguez、Niveditha Sundaram

Caffe2 作为 Caffe 重构出的深度学习框架，一经发布便引起了业内极大的关注。机器之心也对 Caffe2 进行了跟踪报道。昨日，英伟达的一篇技术博客让我们了解 Caffe2 结合 GPU 带来的性能提升。这篇文章对 Caffe2 在 CPU 的支持下带来的性能改进进行了介绍，希望能为大家应用该框架提供帮助。

每一天，在世界的各个角落都在产生越来越多的信息——文本、图片、视频等等。为了能让人们更好地理解这些信息，近几年，人工智能和深度学习已经参与进来，改进了部分一流的语音识别、图片/视频识别以及搜索推荐的应用。

大多数深度学习工作负载同时包含训练和推理。其中，训练通常需要几个小时或几天才能完成，而推理通常需要几毫秒或几秒，并且通常是更大流程的一个步骤。虽然推理的计算强度远低于训练，但推理经常涉及更大的数据集。因此，与推理所需的计算资源总量相比，训练所需的计算资源总量相形见绌。值得指出的是，绝大多数推理工作负载都运行在英特尔至强（Xeon）处理器上。

为了针对各种训练和推理应用进行优化，去年，英特尔在几个深度学习框架上都迅速增加了 CPU 的支持。这些优化最核心的一项是英特尔数学核心函数库（英特尔 MKL），它使用英特尔高级矢量扩展 CPU 指令集（例如英特尔 AVX-512），更好地支持深度学习应用。

说到 Caffe2，它实际上是 Facebook 开发的一个开源深度学习框架，其在开发时就充分考虑到了表达、速度和模块化。Caffe2 旨在帮助研究人员训练大型机器学习模型，并在移动设备上提供人工智能。如今，开发者可以用许多相同的工具，让它们运行大规模分布式训练场景，并为移动设备开发机器学习应用。

英特尔和 Facebook 正在进行合作，把英特尔 MKL 函数集成与 Caffe2 结合，以在 CPU 上实现最优的推理性能。表 1 显示了在 AlexNet 上采用了英特尔 MKL 函数库和 Eigen BLAS 函数库进行压缩的推理性能。在这个表中，OMP_NUM_THREADS 表示这些工作负载中使用的物理核心数量（详情见表格说明）。这些结果显示，Caffe2 在 CPU 上进行了高度优化，并提供有竞争力的性能。对于小型批处理推理工作负载，建议在每个 CPU 核心上运行一个工作负载，并并行运行多个工作负载，每个核心一个工作负载。

表 1：Caffe2 上采用了 AlexNet 拓扑以及英特尔 MKL 和 Eigen BLAS 的性能结果。试验采用了英特尔至强处理器 E5-2699 v4（代号 Broadwell，2.20GHz，双插槽）、每个插槽 22 个物理核心（两个插槽上总计 44 个物理核心），122GB RAM DDR4，2133 MHz，禁用超线程，Linux 3.10.0-514.2.2.el7.x86_64 CentOS 7.3.1611，英特尔 MKL 20170209 版，Eigen BLAS 3.3.2 版，基于截至 2017 年 4 月 18 日的 Caffe2。

安装和使用使用 Caffe2 的说明见 http://Caffe2.ai。

今年下半年，新一代英特尔至强处理器（代号 Skylake）将全面上市。Skylake 引入了 512 位宽混合乘加运算（FMA）指令集，作为更大的 512 位宽矢量引擎——也就是英特尔 AVX-512——的一部分。这意味着在训练和推理工作负载上能够提供比 Haswell/Broadwell 处理器中之前的 256 位宽 AVX2 指令集更高的性能。512 位款 FMA 让 Skylake 可以提供两倍的浮点运算能力，并大幅加快了卷积和递归神经网络中使用的单精度矩阵算法。推理工作负载是高度并行化的，并且它将受益于 Skylake 提供的更多核心。此外，Skylake CPUs 拥有重新架构的存储子系统，支持更高速系统内存和每个核心更大的中层缓存（MLC），它还有助于提升当前一代 CPU 的性能，并大幅加强已安装四年的旧系统。

作者简介

Andres Rodriguez 博士是英特尔人工智能产品事业部（AIPG）的高级首席工程师，为英特尔的客户设计深度学习解决方案，并领导英特尔的所有深度学习产品。他在人工智能领域拥有 13 年的经验。Andres 在卡内基梅隆大学凭借机器学习领域的科研工作成果获得博士学位。他在期刊和会议上发表了 20 多篇同行评议的文章，并曾撰写有关机器学习的图书章节。

Niv Sundaram 博士是英特尔数据中心工程事业部（DEG）的工程总监，聚焦于当前和新兴工作负载的性能和电源优化。她领导团队与英特尔的客户一起为数据中心确定深度学习/机器学习和增强/虚拟/混合现实工作负载的特征。Niv 拥有威斯康星大学麦迪逊分校的电气工程博士学位，并获得过一项专利，发表过数篇同行评议文章。

原文链接：https://software.intel.com/en-us/blogs/2017/04/18/intel-and-facebook-collaborate-to-boost-caffe2-performance-on-intel-cpu-s

本文为机器之心编译，转载请联系本公众号获得授权。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-04-21，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自机器之心微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

业界 | 英特尔发文Caffe2在CPU上的性能检测：将实现最优的推理性能

业界 | 英特尔发文Caffe2在CPU上的性能检测：将实现最优的推理性能

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐