专栏首页腾讯高校合作顶级峰会 | 腾讯FPGA团队亮相FPGA2018

顶级峰会 | 腾讯FPGA团队亮相FPGA2018

本文转载自 腾讯架构师

FPGA、FPL、FCCM和FPT并称FPGA领域四大顶级会议。其中,FPGA会议是FPGA领域最重要的顶级会议,旨在展现与FPGA技术相关所有领域的最新进展,如基本逻辑电路和架构、计算机辅助设计、高层次综合、工具和模型、处理器和系统、测试方法、应用开发等。 2月25-27日,FPGA 2018依旧在美国加州的Monterey召开,今年是第26届。在本次会议中,共录用26篇long paper,6篇short paper,以及32篇poster。在提交论文的专题应用中,Deep Learning架构占据了最高比例,其次是HLS(High Level Synthesis)和CAD(Computer - Aided Design)。

图1  FPGA 2018现场盛况

在FPGA2018上,腾讯FPGA团队首次在学术界亮相,分享了FPGA在腾讯数据中心应用的最新进展和于潇宇博士的科研成果,下面就分享内容、会议感受与深度学习构架方向的新进展,分别介绍。

腾讯FPGA在数据中心的应用方案主要包括腾讯云FPGA平台,深度学习FPGA极速推断平台,以及基因计算行业方案。

腾讯云FPGA平台 相比于专用ASIC,FPGA的可编程能力可提供更高的灵活性,可为特定应用提供专属的加速能力。对此,我们在腾讯云推出FPGA硬件能力的同时,提供FaaS (FPGA as a service)方案,以及HDK和SDK,包括硬件侧完善的静态区域设计,软件侧丰富的API接口,从而简化FPGA开发者的工作使其可以专注于加速算法设计。同时,我们也联合合作伙伴,开放针对垂直领域的行业加速方案,如深度学习、基因计算、图像和视频处理等。

深度学习FPGA极速推断平台 图像和视频媒体是社交领域的核心内容,在我们数据中心任务中占据相当的比例。对于针对图像的CNN网络,我们主要解决一下三个问题:

1、不同模型对基本运算的吞吐需求存在差异。我们使用AccLib结合吞吐可配置的基本算子构架,实现针对每个CNN模型的高度定制,达到极致性能;

2、模型更新速度快,应用中也存在大量自定义模型。对此,基于AccLib的方式,我们已提供GoogleNet/VGG/Resnet/Alexnet/ShuffleNet/MobileNet/Yolo等典型模型的加速方案,而对于自定义模型可在一周内实现快速迭代与部署;

3、基于数据复用、指令设计和任务并行的优化。

上述平台已在数据中心服务于近10亿用户的应用。在KU115平台上,实现略高于P4的吞吐,并将延迟降低至P4的1/40。

基因计算 二代基因测序可用来预测疾病,随着成本不断降低和数据量的爆发,数据分析和计算成为瓶颈。对此,我们推出了基于腾讯极光异构系统的加速方案,采用众核阵列的极光构架,将全基因组分析从30小时缩短为2.8小时,实现高于10倍的加速比。

在Poster的展示中,腾讯在数据中心的FPGA应用受到了UCLA、Imperial College London、USYD等学术界学者和Microsoft、Intel、Xilinx、Alibaba等工业界专家的关注。

图2 于潇宇博士在大会现场与参会学者交流

图3 于潇宇(中),Eric S. Chung(左,微软Senior Researcher)与Song Han(右,MIT Assi Prof)

背景:近期的视觉任务趋向于更高的精度与更低的延迟,要求视觉感知端具备更高的分辨率与帧频,如无人驾驶、姿态捕捉、虚拟现实、导航等。高速成像研究领域,性能不断刷新,灰度CMOS传感器已可实现5Gpixel/秒,等价于1080p分辨率下每秒2411帧的吞吐能力,但由于缺乏相应的处理架构,仅能用于图像记录。本文以目标检测为例对基于超高速相机实时运算的加速器构架进行讨论。

方法:采用无帧缓存的全流水设计,采用形如金字塔的二维处理节点阵列结合一维标签计算阵列,解决串行多任务执行中的顺序依赖问题,将高速图像的数据流转化为前景特征数据流,实现图像传输、连通域标记、特征提取的任务并行;通过二维金字塔节点阵列的专属架构,解决高速相机传输中,同周期到达的多像素在并行计算中的数据依赖问题,如图4所示。

结论:通过对高速摄像机实时运算的定制构架讨论,在目标检测中实现处理耗时小于成像耗时的帧驱动运算模式(Imager-driven processing mode),在0.8Gpixel/sec (2320×1726 at 192FPS)高速数据流下实现目标检测,图像传输结束至结果输出的处理延迟小于1us。

图4 基于高速数据流的目标检测处理框架

本次FPGA 2018中包含了两个大的主题,即深度学习和HLS工具优化。

无论从Session数量,还是论文投稿和录用数量,深度学习已成为FPGA学术界的最时尚的话题。在16年,还与OpenCL合并为一个Session,在17年和18年已占据了2个Session。各大高校的学者们已经普遍感受到了压力,经过近几年的积累,构架层面的优化已触及瓶颈。要实现更好的性能与更低的能耗比,需要算法和架构的联合优化能力。本届大会在深度学习方面的成果主要体现为三方面:更依赖于模型压缩,FFT、Winograd等成为常规优化手段,更注重任务和负载的均衡。

在上一届的FPGA大会上,Song Han通过模型剪枝与稀疏化将模型压缩到原本的1/10,那么是否还有其他方法实现模型压缩和高效计算呢?下面两篇论文中的方法给出了答案。

论文1:C-LSTM: Enabling Efficient LSTM using Structured Compression Techniques on FPGAs[1]

本文通过块内循环的方式,如图5所示,结合重训练,将权值矩阵从O(k2)压缩到O(k),并结合FFT进一步降低计算复杂度,从而实现18.8倍的性能提升和33.5倍的能效提升。

图5 块内循环的权值矩阵压缩方式,例如将3*3的权值子阵借助循环移位展开的方式,压缩为1*3的权值子阵,从而降低带宽瓶颈。

论文2 :DeltaRNN: A Power-efficient Recurrent Neural Network Accelerator[2]

Song Han的论文中是针对冗余的权值进行剪枝,那么时间序列中的状态是否存在冗余呢?本文提出了,只有在神经元当前输入的激励与上一次激励的变化超过一定阈值时,才进行计算并更新神经元的输出,这种方式同样减少了参与计算的权值矩阵,从而降低了带宽压力,如图6所示,实现了1.2Tops/s的吞吐和164Gops/W的能效。

图6 忽略变化低于阈值的输入,从而降低计算量

此外,在任务和负载均衡方面,以下两篇论文分别对基于FFT的负载均衡与CPU+FPGA间的负载均衡进行讨论,可详见:

A Framework for Generating High Throughput CNN Implementations on FPGAs[3]

A Customizable Matrix Multiplication Framework for the Intel HARPv2 Xeon+FPGA Platform - A Deep Learning Case Study[4]

在HLS方面,FPGA是否能直接面对毫无硬件经验的软件工程师,是影响FPGA市场规模的关键因素,而这正是HLS的价值所在。鉴于其强大的快速开发优势,学术界已有超过50%的学者使用HLS。在本次大会中,针对HLS生成代码的性能、资源占用、易用性等问题,分别从多设计融合与编译时间优化、存储器优化、降低操作依赖和延迟、HLS设计debug等方面进行了讨论。

FPGA2018会议论文演讲ppt下载地址为:http://www.isfpga.org/program.html

[1] Shuo Wang, Zhe Li, Caiwen Ding, etc. C-LSTM: Enabling Efficient LSTM using Structured Compression Techniques on FPGAs[C]. 26th ACM/SIGDA International Symposium on Field-Programmable Gate Arrays, 2018.

[2] Chang Gao, Daniel Neil, Enea Ceolini, etc. DeltaRNN: A Power-efficient Recurrent Neural Network Accelerator[C]. 26th ACM/SIGDA International Symposium on Field-Programmable Gate Arrays, 2018.

[3] Hanqing Zeng, Ren Chen, Chi Zhang, etc. A Framework for Generating High Throughput CNN Implementations on FPGAs[C]. 26th ACM/SIGDA International Symposium on Field-Programmable Gate Arrays, 2018.

[4] Duncan Moss, Srivatsan Krishnan, Eriko Nurvitadhi, etc. A Customizable Matrix Multiplication Framework for the Intel HARPv2 Xeon+FPGA Platform - A Deep Learning Case Study[C]. 26th ACM/SIGDA International Symposium on Field-Programmable Gate Arrays, 2018.

腾讯架构师

腾讯高校合作

本文分享自微信公众号 - 腾讯高校合作(Tencent_UR)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-03-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 盘点2016-2017 EDA及芯片领域的神经网络热点论文

    我们结合2017年的 FPGA 和 ISSCC 会议上的代表性工作,给出了神经网络的一些新热点和研究趋势。

    腾讯高校合作
  • 腾讯携手北京大学数字视频编解码技术国家工程实验室和AVS联盟开启全面战略合作

    3月18日,国际音视频产业论坛暨AVS标准十五周年年会在北京国家会议中心举行,北京大学校长林建华教授、AVS标准工作组组长高文院士、腾讯公司副总裁王巨宏女士,以...

    腾讯高校合作
  • 鹅厂@你,一起来看腾讯T派夏令营!(下) 内附精彩视频!

    首先呈上彩蛋! 点击观看2018腾讯T派夏令营精彩回顾视频 回顾:鹅厂@你,一起来看腾讯T派夏令营!(上) 回顾完上集内容和精彩视频,我们一起来看看后边几...

    腾讯高校合作
  • Xilinx 7系列FPGA概览

      2015年11月,Xilinx推出Spartan®-7 FPGA系列,新一代产品开始更新,之前两篇文章:   FPGA 主流芯片选型指导和命名规则(一)  ...

    碎碎思
  • 30 倍效率,4 成费用,创业公司拥抱 AI 的另一个选择

    当前 AI 火爆,得益于 FPGA 的高密度计算能力以及低功耗的特性,FPGA 率先在深度学习在线预测方向(广告推荐、图片识别、语音识别等)得到了较大规模的部署...

    腾讯云计算产品团队
  • 腾讯 FPGA 云 : 背后的技术

    FPGA云是云计算的核心算力,同时也是一种新型的行业解决方案。首先,它是一种异构计算平台的体系结构,另一方面,它通过云服务方式为用户提供高附加值的服务,让用户能...

    TEG云端专业号
  • FPGA开发全攻略

    链接: https://pan.baidu.com/s/1NDERPvK4bGDxGxCcFgAldg

    碎碎思
  • 计算机系统结构变革在即?

    15年6月,intel正式宣布167亿美元收购FPGA生产商Altera。此交易为该公司有史以来涉及金额最大的一次收购案例。167亿美金不是小数目,intel ...

    大数据和云计算技术
  • 如何评价微软在数据中心使用FPGA代替传统CPU的做法?

    编者按:本文系微软亚洲研究院实习生李博杰在知乎上针对“如何评价微软在数据中心使用FPGA代替传统CPU的做法?”问题的回答。AI科技评论已获得转载授权。 首先,...

    AI科技评论
  • 专访丨腾讯云 FPGA 团队:FPGA 云服务器给产业链带来了哪些价值?

    日前,国内云服务商腾讯云宣布推出FPGA云服务器,引起了业界一阵热议,这是继国外亚马逊以及微软等企业在数据中心做出部署FPGA的尝试之后,国内首个FPGA云服务...

    AI科技评论

扫码关注云+社区

领取腾讯云代金券