【犀牛鸟论道】深度学习的异构加速技术(一)

一、概述:通用 == 低效

作为通用处理器,CPU (Central Processing Unit) 是计算机中不可或缺的计算核心,结合指令集,完成日常工作中多种多样的计算和处理任务。然而近年来,CPU在计算平台领域一统天下的步伐走的并不顺利,可归因于两个方面,即自身约束和需求转移。

(1)自身约束又包含两方面,即半导体工艺,和存储带宽瓶颈。

一方面,当半导体的工艺制程走到7nm后,已逼近物理极限,摩尔定律逐渐失效,导致CPU不再能像以前一样享受工艺提升带来的红利:通过更高的工艺,在相同面积下,增加更多的计算资源来提升性能,并保持功耗不变。为了追求更高的性能,更低的功耗,来适应计算密集型的发展趋势,更多的设计通过降低通用性,来提升针对某一(或某一类)任务的性能,如GPU和定制ASIC。

另一方面,CPU内核的计算过程需要大量数据,而片外DDR不仅带宽有限,还具有较长的访问延迟。片上缓存可以一定程度上缓解这一问题,但容量极为有限。Intel通过数据预读、乱序执行、超线程等大量技术,解决带宽瓶颈,尽可能跑满CPU,但复杂的调度设计和缓存占用了大量的CPU硅片面积,使真正用来做运算的逻辑,所占面积甚至不到1%[1]。同时,保证程序对之前产品兼容性的约束,在一定程度上制约了CPU构架的演进。

(2)需求转移,主要体现在两个逐渐兴起的计算密集型场景,即云端大数据计算和深度学习。尤其在以CNN为代表的深度学习领域,准确率的提升伴随着模型深度的增加,对计算平台的性能要求也大幅增长,如图1所示[2]。相比于CPU面对的通用多任务计算,深度学习计算具有以下特点:任务单一,计算密度大,较高的数据可复用率。对计算构架的要求在于大规模的计算逻辑和数据带宽,而不在于复杂的任务调度,因此在CPU上并不能跑出较好的性能。

图1.1 深度学习的发展趋势:更高精度与更深的模型,伴随着更高的计算能力需求。

基于上述原因,CPU构架在深度学习、大数据分析,以及部分嵌入式前端应用中并不具备普适性,此时,异构计算开始进入人们的视野。本文主要针对深度学习的计算构架进行讨论。

在讨论之前,先上一张经典的类比图:分别以“可编程能力/灵活性”和“开发难度/定制性/计算效率/能耗”为横轴和纵轴,将CPU与当前主流异构处理器,如GPU、FPGA、专用ASIC等进行比较。

图1.2 计算平台选择依据

通过前文分析可知,CPU最大限度的灵活性是以牺牲计算效率为代价。GPU将应用场景缩减为图形图像与海量数据并行计算,设计了数千计算内核,有效的提升了硅片上计算逻辑的比例,但随之而来的带宽需求也是相当恐怖的。为了解决这一问题,一方面,为了保证通用性,兼容低数据复用的高带宽场景,GPU内部设计了大量分布式缓存;另一方面,GPU的显存始终代表了当前可商用化存储器的最新成果。显存采用的DDR始终领先服务器内存1~2代,并成为业界首先使用HBM的应用。因此,相比于CPU,GPU具备更高的计算性能和能耗比,但相对的通用性和带宽竞争使其能耗比依然高于FPGA和ASIC,并且性能依赖于优化程度,即计算模型和数据调度要适配GPU的底层架构。

FPGA和ASIC则更倾向于针对某一特定应用。无疑,专用ASIC具有最高的计算效率和最低的功耗,但在架构、设计、仿真、制造、封装、测试等各个环节将消耗大量的人力和物力。而在深度学习模型不断涌现的环境下,当尚未出现确定性应用时,对CNN、RNN中的各个模型分别进行构架设计甚至定制一款独立ASIC是一件非常奢侈的事情,因此在AI处理器的设计上,大家的做法逐渐一致,设计一款在AI领域具备一定通用性的FPGA/ASIC构架,称为领域处理器。使其可以覆盖深度学习中的一类(如常见CNN模型),或多类(如CNN+RNN等)。

二、嵌入式VS云端,不同场景下,AI处理器的两个选择

2.1 AI处理器的发展和现状

伴随着深度学习模型的深化和算力需求的提升,从学术界兴起的AI处理器方案已经迅速蔓延到工业界。目前,各大互联网、半导体、初创公司的方案主要分为云端、嵌入式端两类(或称为云侧和端侧),可归纳如表1.1所示,若感兴趣可转到唐杉同学维护的列表:https://basicmi.github.io/Deep-Learning-Processor-List/。

表1.1 深度学习处理器方案列表

图1.3 AI处理器的发展和设计目标

AI处理器的发展过程如图1.3所示。在早期,对AI处理器架构的探讨源于学术界的半导体和体系架构领域,此时模型层数较少,计算规模较小,算力较低,主要针对场景为嵌入式前端;随着模型的逐渐加深,对算力的需求也相应增加,导致了带宽瓶颈,即IO问题(带宽问题的成因详见2.2节),此时可通过增大片内缓存、优化调度模型来增加数据复用率等方式解决;当云端的AI处理需求逐渐浮出水面,多用户、高吞吐、低延迟、高密度部署等对算力的需求进一步提升。计算单元的剧增使IO瓶颈愈加严重,要解决需要付出较高代价(如增加DDR接口通道数量、片内缓存容量、多芯片互联等),制约了处理器实际应用。此时,片上HBM(High Bandwidth Memory,高带宽存储器)的出现使深度学习模型完全放到片上成为可能,集成度提升的同时,使带宽不再受制于芯片引脚的互联数量,从而在一定程度上解决了IO瓶颈,使云端的发展方向从解决IO带宽问题,转向解决算力伸缩问题。

到目前为止,以HBM/HMC的应用为标志,云端高性能深度学习处理器的发展共经历了两个阶段:

1.第一阶段,解决IO带宽问题;

2.第二阶段,解决算力伸缩问题。

2.2 带宽瓶颈

第一阶段,囊括了初期的AI处理器,以及至今的大部分嵌入式前端的解决方案,包括第一代TPU、目前FPGA方案的相关构架、寒武纪ASIC构架,以及90%以上的学术界成果。欲达到更高的性能,一个有效的方法是大幅度提升计算核心的并行度,但算力的扩张需要匹配相应的IO带宽。例如,图1.4中的1个乘加运算单元若运行在500MHz的频率下,每秒需要4GB的数据读写带宽;一个典型的云端高性能FPGA(以Xilinx KU115为例)共有5520个DSP,跑满性能需要22TB的带宽;而一条DDR4 DIMM仅能提供19.2GB的带宽(上述分析并不严谨,但不妨碍对带宽瓶颈的讨论)。因此在第一阶段,设计的核心是,一方面通过共享缓存、数据调用方式的优化等方式提升数据复用率,配合片上缓存,减少从片外存储器的数据加载次数。另一方面通过模型优化、低位宽量化、稀疏化等方式简化模型和计算。

图1.4 一个乘加单元及其带宽计算(累加值通常与输出共用,故未计入带宽)

2.3 算力伸缩

尽管片上分布的大量缓存能提供足够的计算带宽,但由于存储结构和工艺制约,片上缓存占用了大部分的芯片面积(通常为1/3至2/3),限制了算力提升下缓存容量的同步提升,如图1.5所示。

图1.5 芯片中片上缓存的规模,左图图为Google第一代TPU,蓝色部分为缓存区域,占用芯片面积的37%;右图为寒武纪公司的DiaoNao AI ASIC设计,缓存占面积的66.7%(NBin+NBout+SB)。

而以HBM为代表的存储器堆叠技术,将原本一维的存储器布局扩展到三维,大幅度提高了片上存储器的密度,如图1.6所示,标志着高性能AI处理器进入第二阶段。但HBM的需要较高的工艺而大幅度提升了成本,因此仅出现在互联网和半导体巨头的设计中。HBM使片上缓存容量从MB级别提升到GB级别,可以将整个模型放到片上而不再需要从片外DDR中加载;同时,堆叠存储器提供的带宽不再受限于芯片IO引脚的制约而得到50倍以上的提升,使带宽不再是瓶颈。此时,设计的核心在于高效的计算构架、可伸缩的计算规模、和分布式计算能力,以应对海量数据的训练和计算中的频繁交互。

图1.6 HBM与片内垂直堆叠技术

在后续篇幅论述中,由于这两个阶段的构架方案有较大区别,故拆分为2篇:

深度学习的异构加速技术(二)带宽扼喉下的百花齐放

深度学习的异构加速技术(三)工业界的算力释放

若仅对科技巨头的方案感兴趣,可忽略(二)。为保证论述的一致性,TPU和TPU2的内容合并在(三)中讨论。

[1] 王逵, “CPU和GPU双低效,摩尔定律之后一万倍 ——写于TPU版AlphaGo重出江湖之际”,新智元,2017.

[2] Jeff Dean, "Keynote: Recent Advances in Artificial Intelligence via Machine Learning and the Implications for Computer System Design", Hotchips2017, 2017

本文转载自:腾讯架构师

作者简介

于潇宇,博士,高级研究员,隶属腾讯TEG-架构平台部,主要研究方向为深度学习异构计算与硬件加速、FPGA云、高速视觉感知等方向的构架设计和优化。

“犀牛鸟论道”专栏聚焦科研前沿与趋势,评点技术与壁垒,探究创新之本源,旨在为学术界和产业界专家提供一片智慧与卓越见解的分享之地,让思考和成就得以沉淀。

来信来稿请联系:kunyuan@tencent.com

合作伙伴

腾讯架构师

微信号:TencentArchitecure

本文分享自微信公众号 - 腾讯高校合作(Tencent_UR)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-11-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【远古生物复活】深度学习与生物大数据处理

在地球漫长的进化中,我们人为地造成了很多悲剧: 渡渡鸟、长毛象 大海燕 袋狼 …… 这些曾经平静生活在地球上的动物因为人类活动而骤然灭绝。如今更是每天都有100...

38350
来自专栏AI科技评论

开发 | CNN 那么多网络有何区别?看这里了解 CNN 发展历程

AI科技评论按:本文原载于知乎, AI科技评论获作者授权转载。 深度学习算法最近变得越来越流行和越来越有用的算法,然而深度学习或者深度神经网络的成功得益于层出不...

39550
来自专栏人工智能快报

美科学家将深度学习用于医疗诊断

每年全球大约要进行20亿例X光检查。但是平均来看,放射科人手不足。放射科医生的工作量不断增加,不堪重负,几乎没有时间来综合地评价图像——导致了误诊和更严重的后果...

29350
来自专栏AI科技评论

开发 | 深度学习中的“深度”究竟怎么理解?

AI科技评论按:本文原作者 YJango,本文原载于其知乎专栏——超智能体。AI科技评论已获得原作者授权。 介绍 为了研究神经网络,我们必须要对什么网络是什么有...

32070
来自专栏新智元

【经典荐书】Yoshua Bengio大神教你深度学习(705页PDF)

Yoshua Bengio教授(个人主页)是机器学习大神之一,尤其是在深度学习这个领域。他连同Geoff Hinton老先生以及 Yann LeCun(燕乐存)...

39160
来自专栏新智元

深度学习比医生更擅长发现癌症

JeremyHoward 打开了他将在Exponential Medicine 上做的机器学习的演讲。一个如史诗般的创造刚刚发生,他不得不把它包括在内。“在我登...

30650
来自专栏AI科技评论

大会 | 360副总裁颜水成博士:技术与产品并重,1×1卷积让深度学习更出彩 | CCF-GAIR 2017

7 月 7 日,由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的CCF-GAIR 2017全球人工智能与机器人峰会在深圳大中华喜来登酒店如期开...

27630
来自专栏新智元

深度学习是否以蛮力取胜?

Vladimir Vapnik 介绍: Vladimir Vapnik 被称为统计学习理论之父,他出生于俄罗斯,1990 年底移居美国,在美国贝尔实验室一直工作...

40970
来自专栏AI科技评论

学界 | CVPR2017精彩论文解读:直接处理三维点云的深度学习模型

AI 科技评论按:CVPR 2017已经落下帷幕,但对精彩论文的解读还在继续。下文是Momenta高级研究员陈亮对此次大会收录的 PointNet:Deep L...

77030
来自专栏新智元

【Big Computing】HPC大计算,挑战深度学习的计算力黑洞

2015 高性能计算用户大会 9月24日,由亚洲超算协会联合浪潮等主办的2015高性能计算用户大会在北京举行。本次大会围绕目前的新技术趋势提出“大计算”理念,重...

36130

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励