边缘智能:基于边缘计算的深度学习模型推断加速方法

作者:李恩,周知,陈旭

图片来源于网络

关键词:边缘计算,深度学习,边缘智能,协同推理

Key words:Edge Computing, Deep Learning, Edge Intelligence, Co-Inference

研究背景

作为人工智能领域的当红炸子鸡,深度学习技术近年来得到了学术界与产业界的大力追捧。目前,深度学习技术已在计算机视觉、自然语言处理以及语音识别等领域大放异彩,相关产品正如雨后春笋般涌现。由于深度学习模型需要进行大量的计算,因此基于深度学习的智能通常只存在于具有强大计算能力的云计算数据中心。考虑到当下移动终端设备的高度普及,如何将深度学习模型高效地部署在资源受限的终端设备,从而使得智能更加贴近用户这一问题以及引起了学术界与工业界的高度关注。针对这一难题,边缘智能(Edge Intelligence)技术通过协同终端设备与边缘服务器,来整合二者的计算本地性与强计算能力的互补性优势,从而达到显著降低深度学习模型推理的延迟与能耗的目的。

图1. 基于终端设备与边缘服务器协同的深度学习推断

边缘智能的核心研究问题在于如何在资源受限的边缘端高效部署深度学习模型,其中包括边缘设备深度学习模型优化,深度学习计算迁移,边缘服务器与终端设备间的协同调度等问题。

研究问题

对于常见的常见的深度学习模型,如深度卷积神经网络CNN,是由多层神经网络相互叠加而成。由于不同网络层的计算资源需求以及输出数据量都具有显著的差异性,那么一个直观的想法是将整个深度学习模型切分成两部分,其中计算量大的一部分卸载到边缘端服务器进行计算,而计算量小的一部分则保留在终端设备本地计算,如图2所示。显然,上述终端设备与边缘服务器协同推断的方法能有效降低深度学习模型的推断时延。然而,选择不同的模型切分点降导致不同的计算时间,我们需要选择最佳的模型切分点从而最大化发挥终端与边缘协同的优势。

图2. 边缘服务器与终端设备协同推理示例

除了对模型进行切分(DNN partitioning),加速深度学习模型推断的另一手段为模型精简(DNN right-sizing),即选择完成时间更快的“小模型”,而非对资源需求更高的“大模型”。如图3所示,对于任意深度学习任务,我们可以离线训练具有多个退出点的分支网络,其中,退出点越靠后,模型越“大”, 准确率也越高但相应地推断时延越大。因此,当深度学习任务的完成时间比较紧迫时,我们可以选择适当地牺牲模型的精确度来换取更优的性能(即时延)。值得注意的是,此时我们需要谨慎权衡性能与精度之间的折衷关系(tradeoff)。

图3. 具有多个退出点的深度学习分支网络

综合运用上述模型切分和模型精简等两种调节深度学习模型推断时间的优化手段,并小心权衡由此引发的性能与精度之间的折衷关系,本文定义如下研究问题:对于给定时延需求的深度学习任务,如何联合优化模型切分和模型精简这两个决策,从而使得在不违反时延需求的同时最大化深度学习模型的精确度。

研究结果

针对上述问题,我们提出了基于边缘与终端协同的深度学习模型运行时优化框架Edgent。如图4所示,Edgent的优化逻辑分为三个阶段:离线训练阶段,在线优化阶段以及协同推断阶段。

首先,在离线训练阶段,Edgent训练深度学习任务对应的分支网络,并生成回归模型来预测分支网络中不同网络层在边缘服务器以及在终端设备上的计算时间。其次,在在线优化阶段,Edgent实时测量当前移动终端与边缘服务器之间链路的网络带宽,以便于估算移动终端与边缘服务器间的数据传输时延。紧接着,Edgent沿着尺寸从大到小的网络分支(如图3中从右至左的5个网络分支),依次遍历每个网络分支上不同的切分点,并基于当前网络带宽和不同网络层计算时间估算所选网络分支与切分点对应的端到端延迟与模型精确度。在遍历完所有的分支网络与切分点后,Edgent输出满足时延需求的所有网络分支与切分点组合中具有最大精确度的一个组合。最后,在协同推断阶段,根据上述在线优化阶段所输出的最优网络分支与切分点组合,边缘服务器与移动终端对深度学习模型进行协同推断。

为了论证上述面向边缘智能的优化框架Edgent的高效性,我们编码实现了原型系统,并将其部署在了由树莓派(终端设备)和边缘服务器组成的真实设备上,实验表明其能在网络边缘端高效支撑计算机视觉这一典型深度学习应用。

图4. 基于边缘与终端协同的深度学习模型运行时优化框架Edgent

论文及作者介绍

作者信息:

陈旭教授2012年于香港中文大学信息工程系获得博士学位,2012年到2014年在美国亚利桑那州立大学网络信息实验室从事博士后研究,2014年到2016年,获洪堡基金会资助成为洪堡学者,在德国哥廷根大学从事科研工作。2016年加入中山大学数据科学与计算机学院,任教授、博导,并入选第13批国家中组部“千人计划”青年项目。目前担任数字家庭互动应用国家地方联合工程实验室、广东省数字家庭互动应用工程实验室副主任。迄今在IEEE Journal on Selected Areas in Communications、IEEE/ACM Transactions on Networking、IEEE Transactions on Mobile Computing、 IEEE INFOCOM、IEEE ICDCS、ACM MOBIHOC、 ACM MM等国际高水平会议与权威期刊发表论文70余篇,ESI高被引论文4篇,热点论文1篇。获得IEEE ComSoc协会亚太区杰出青年学者奖、IEEE ComSoc Young Professional最佳论文奖、CCF A类国际会议IEEE INFOCOM的最佳论文亚军奖、IEEE通信协会旗舰会议ICC最佳论文奖以及国际会议IEEE ISI的最佳论文荣誉提名奖。

周知副研究员2017年于华中科技大学计算机学院获得博士学位,并加入中山大学数据科学与计算机学院,任特聘副研究员。近年来从事云计算、边缘计算、数据中心网络、分布式大数据分析、绿色通信与计算等方面的研究,目前在包括IEEE Journal on Selected Areas in Communications、IEEE Transactions on Parallel and Distributed Systems、IEEE INFOCOM、IEEE ICDCS、ACM SIGMETRICS、IEEE MASCOTS等国际高水平会议以及期刊上发表论文多篇。曾作为主要技术骨干参与国家重点基础研究发展计划973专题项目、国家自然科学重点国际合作项目等多个科研项目。

论文信息:

En Li, Zhi Zhou and Xu Chen, “Edge Intelligence: On-Demand Deep Learning Model Co-Inference with Device-Edge Synergy”, in ACM SIGCOMM 2018 Workshop on Mobile Edge Communications (SIGCOMM-MECOMM 2018), Budapest, Hungary, August 20, 2018.

  • 发表于:
  • 原文链接:https://kuaibao.qq.com/s/20180828G0G0XB00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券