前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >业界 | 英特尔发文Caffe2在CPU上的性能检测:将实现最优的推理性能

业界 | 英特尔发文Caffe2在CPU上的性能检测:将实现最优的推理性能

作者头像
机器之心
发布2018-05-07 14:57:26
8970
发布2018-05-07 14:57:26
举报
文章被收录于专栏:机器之心

选自 Intel Blog

作者:Andres Rodriguez、Niveditha Sundaram

Caffe2 作为 Caffe 重构出的深度学习框架,一经发布便引起了业内极大的关注。机器之心也对 Caffe2 进行了跟踪报道。昨日,英伟达的一篇技术博客让我们了解 Caffe2 结合 GPU 带来的性能提升。这篇文章对 Caffe2 在 CPU 的支持下带来的性能改进进行了介绍,希望能为大家应用该框架提供帮助。

每一天,在世界的各个角落都在产生越来越多的信息——文本、图片、视频等等。为了能让人们更好地理解这些信息,近几年,人工智能和深度学习已经参与进来,改进了部分一流的语音识别、图片/视频识别以及搜索推荐的应用。

大多数深度学习工作负载同时包含训练和推理。其中,训练通常需要几个小时或几天才能完成,而推理通常需要几毫秒或几秒,并且通常是更大流程的一个步骤。虽然推理的计算强度远低于训练,但推理经常涉及更大的数据集。因此,与推理所需的计算资源总量相比,训练所需的计算资源总量相形见绌。值得指出的是,绝大多数推理工作负载都运行在英特尔至强(Xeon)处理器上。

为了针对各种训练和推理应用进行优化,去年,英特尔在几个深度学习框架上都迅速增加了 CPU 的支持。这些优化最核心的一项是英特尔数学核心函数库(英特尔 MKL),它使用英特尔高级矢量扩展 CPU 指令集(例如英特尔 AVX-512),更好地支持深度学习应用。

说到 Caffe2,它实际上是 Facebook 开发的一个开源深度学习框架,其在开发时就充分考虑到了表达、速度和模块化。Caffe2 旨在帮助研究人员训练大型机器学习模型,并在移动设备上提供人工智能。如今,开发者可以用许多相同的工具,让它们运行大规模分布式训练场景,并为移动设备开发机器学习应用。

英特尔和 Facebook 正在进行合作,把英特尔 MKL 函数集成与 Caffe2 结合,以在 CPU 上实现最优的推理性能。表 1 显示了在 AlexNet 上采用了英特尔 MKL 函数库和 Eigen BLAS 函数库进行压缩的推理性能。在这个表中,OMP_NUM_THREADS 表示这些工作负载中使用的物理核心数量(详情见表格说明)。这些结果显示,Caffe2 在 CPU 上进行了高度优化,并提供有竞争力的性能。对于小型批处理推理工作负载,建议在每个 CPU 核心上运行一个工作负载,并并行运行多个工作负载,每个核心一个工作负载。

表 1:Caffe2 上采用了 AlexNet 拓扑以及英特尔 MKL 和 Eigen BLAS 的性能结果。试验采用了英特尔至强处理器 E5-2699 v4(代号 Broadwell,2.20GHz,双插槽)、每个插槽 22 个物理核心(两个插槽上总计 44 个物理核心),122GB RAM DDR4,2133 MHz,禁用超线程,Linux 3.10.0-514.2.2.el7.x86_64 CentOS 7.3.1611,英特尔 MKL 20170209 版,Eigen BLAS 3.3.2 版,基于截至 2017 年 4 月 18 日的 Caffe2。

安装和使用使用 Caffe2 的说明见 http://Caffe2.ai。

今年下半年,新一代英特尔至强处理器(代号 Skylake)将全面上市。Skylake 引入了 512 位宽混合乘加运算(FMA)指令集,作为更大的 512 位宽矢量引擎——也就是英特尔 AVX-512——的一部分。这意味着在训练和推理工作负载上能够提供比 Haswell/Broadwell 处理器中之前的 256 位宽 AVX2 指令集更高的性能。512 位款 FMA 让 Skylake 可以提供两倍的浮点运算能力,并大幅加快了卷积和递归神经网络中使用的单精度矩阵算法。推理工作负载是高度并行化的,并且它将受益于 Skylake 提供的更多核心。此外,Skylake CPUs 拥有重新架构的存储子系统,支持更高速系统内存和每个核心更大的中层缓存(MLC),它还有助于提升当前一代 CPU 的性能,并大幅加强已安装四年的旧系统。

作者简介

Andres Rodriguez 博士是英特尔人工智能产品事业部(AIPG)的高级首席工程师,为英特尔的客户设计深度学习解决方案,并领导英特尔的所有深度学习产品。他在人工智能领域拥有 13 年的经验。Andres 在卡内基梅隆大学凭借机器学习领域的科研工作成果获得博士学位。他在期刊和会议上发表了 20 多篇同行评议的文章,并曾撰写有关机器学习的图书章节。

Niv Sundaram 博士是英特尔数据中心工程事业部(DEG)的工程总监,聚焦于当前和新兴工作负载的性能和电源优化。她领导团队与英特尔的客户一起为数据中心确定深度学习/机器学习和增强/虚拟/混合现实工作负载的特征。Niv 拥有威斯康星大学麦迪逊分校的电气工程博士学位,并获得过一项专利,发表过数篇同行评议文章。

原文链接:https://software.intel.com/en-us/blogs/2017/04/18/intel-and-facebook-collaborate-to-boost-caffe2-performance-on-intel-cpu-s

本文为机器之心编译,转载请联系本公众号获得授权。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2017-04-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档