给 AI 换个“大动力小心脏”之 OCR 异构加速

导语:OCR在通用文字识别等场景下有广泛应用,基于FPGA异构加速的OCR识别相比CPU/GPU实现具有延时小、成本低的优势。我们设计了多FPGA芯片协同的异构加速架构,能快速适配业务OCR模型变化,检测识别整体性能为GPU P4 130%,处理延时仅为P4的1/10,CPU的1/30。

1.文字识别技术- OCR

OCR技术,通俗来讲就是从图像中检测并识别字符的一种方法,在证通用文字识别、书籍电子化、自动信息采集、证照类识别等应用场景中得到了广泛应用。通用场景的OCR因此通用场景下的OCR技术一直都是人工智能领域挑战性极强的研究领域,不需要针对特殊场景进行定制,可以识别任意场景图片中的文字。

通用OCR技术包含两大关键技术:文本检测和文字识别。检测模型的作用简单来说就是确定图片中哪里有字,并把有字的区域框出来。文字识别是将文本检测box作为输入,识别出其中的字符。

近年来深度学习逐渐被应用到音频、视频以及自然语言理解等时序数据建模的领域。通过深度学习的端到端学习提升Sequence Learning的效果已经成为当前研究的热点。基本思路是CNN与RNN结合:CNN被用于提取有表征能力的图像特征,将RNN的序列化特性引入到文本检测,增加了文本检测候选区域的上下文信息,可以有效地提升文本检测任务的性能。CNN+RNN的混合网络将文本串识别领域的效果推到了一个新的高度。

图1:CRNN网络结构

*上图引用自《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition》。

我们以目前应用十分广泛的CRNN模型为例,它是DCNN和RNN的组合,可以直接从序列标签学习,不需要详细的标注;比标准DCNN模型包含的参数要少很多。同时CRNN在图像特征和识别内容序列之间严格保序,擅长识别字分割比较困难的文字序列。

架构包括三部分:

1) 卷积层,从输入图像中提取特征序列,将图像进行空间上的保序压缩,相当于沿水平方向形成若干切片,每个切片对应一个特征向量;

2) 循环层,预测每一帧的标签分布;采用双层双向的LSTM,进一步学习上下文特征,据此得到切片对应的字符类别。

3) Transcription层,利用CTC和前向后向算法求解最优的label序列。

2. OCR加速架构

依赖于FPGA的可编程性、高性能以及高通信带宽,我们设计了一个多FPGA芯片协同的异构加速架构。单一芯片针对一种类型的模型进行深度定制优化,不同芯片之间通过负载均衡以及流水化来完成整个混合模型的加速过程。

图2:OCR加速硬件架构

  • FPGA 0配置为通用的CNN加速架构
  • FPGA 1配置为通用的LSTM加速架构
  • 对于计算量较小的FC使用CPU进行计算,保持模型灵活性
  • FPGA与服务器CPU通过PCIe Gen3进行数据通信,负载均衡由CPU进行控制
  • FPGA间通过AURORA轻量级协议进行数据交换,数据交换延时ns级,类似不同板卡间内存共享
  • 平台后续升级可支持服务器间的多任务并行/流水调度

为特定的深度学习模型进行底层深度架构优化,通过架构层面上的优化来充分发挥异构加速器件的性能,达到最大的计算收益。

3. 通用加速器引擎

针对CNN以及LSTM这两类最常用的深度学习算法,我们设计了两种加速架构;每种架构能够通过“指令集+基本算子”的形式,能够较为灵活的支持各类模型变种。

3.1 CNN计算引擎

CNN模型的核心计算是Kernel在input feature map滑窗进行3D卷积计算,Kernel数据复用率高,整体计算密度大。

CNN加速器当前版本基于Xilinx Ku115芯片设计,PE计算单元由4096个工作在500MHz的MAC dsp核心构成。KU115芯片由两个DIE对堆叠而成,加速器平行放置了两组处理单元PE。每个PE由4组32x16=512的MAC计算DSP核心组成的XBAR构成。

计算架构设计的关键在于提高数据复用率来提升DSP计算效率,实现模型权重复用和各layer feature map的复用。

其基本组织框架如下图所示:

图3:CNN计算引擎架构

3.2 LSTM计算引擎

LSTM模型的核心是向量*矩阵及对应各gate的激活函数。权重矩阵数据量大,同时时间序列上数据存在前后依赖关系,模型中可挖掘的的计算并行度小。

LSTM加速器当前版本基于Xilinx Ku115芯片设计,PE计算单元由4096个工作在300MHz的MAC dsp核心构成。对于核心PE单元,我们将其细分为64个bank,每一个bank由64个级联的DSP组成,利用DSP特性完成向量乘法过程中的乘累加过程。

计算架构设计的关键在于降低访存消耗。在控制部分,需要控制好ROW A和Col B的数据pipeline输入,保证计算数据之间的匹配;在PE输出端需要把控好激活函数的并行性,保证模型计算流水线的高效性。

其基本组织框架如下图所示:

图4:LSTM计算引擎架构

4. 性能对比

对于使用者而言,FPGA平台性能、开发周期以及易用性究竟如何呢?

🔺 性能

CNN加速平台,峰值计算性能为4Tops,模型inference latency为GPU P4的1/10。

LSTM模型中,峰值计算性能为2.4Tops,FPGA 2us内可以完成一次核心矩阵为1024*512的计算过程(8次1*1024与1024*512向量乘矩阵及相关的激活函数)。

🔺 易用性

FPGA加速器对底层加速过程进行封装,向上对加速平台的业务方提供易用SDK。业务方调用简单的API函数即可完成加速操作,对业务自身逻辑几乎无任何改动。

如果线上模型需要改动,只需调用模型初始化函数,将对应的模型指令集初始化FPGA即可,加速业务可以在几秒内进行切换。

🔺 硬件加速开发周期

底层CNN加速平台以及LSTM加速平台,架构通过模型映射指令集的方式进行加速。

对于经典模型及标准layer自研的算法变种,现有加速架构已经可以支持,可以在一天内通过编译器实现模型对应指令集,实现部署上线;

对于自研的特殊模型,例如不对称卷积算子或LSTM特殊结构,需要根据实际模型结构在本平台上进行相关算子迭代开发,开发周期可缩短在一到两周之内进行支持。

5. 结语

目前OCR技术在证件识别、快递单扫描、信息安全审核等领域有着广泛的应用。架构平台部FPGA团队研发的OCR硬件加速解决方案,提供低成本、实时性AI计算加速,将持续助力公司内各业务发展。

在云端,2017年初,我们在腾讯云首发了国内第一台FPGA公有云服务器,我们将会逐步把基础AI加速能力推出到公有云上。

AI异构加速的战场很大很精彩,为公司内及云上业务提供最优的解决方案是架平FPGA团队持续努力的方向。

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

数据挖掘:推荐系统综述以及美团推荐系统介绍

其实推荐系统前面已经讲过不少,那时候主要是放在机器学习上讲的,既然这次要系统撸一遍数据挖掘,就把推荐系统单独拿出来说一说。相信如果做过推荐系统的人,都知道是什么...

5528
来自专栏上善若水

秘籍0x02基础误差分析

Eyeball 开发集的大小将主要取决于你能够手动分析样本的时间,以及你所拥有的访问数据的权限;

1114
来自专栏数据科学与人工智能

【智能】数据科学管道初学者指南

曾几何时,有一个名叫Data的男孩。 在他的一生中,他总是试图了解他的目的是什么。 我有什么价值观? 我可以对这个世界产生什么影响? 数据来自哪里? 看到你和数...

703
来自专栏人人都是极客

面向嵌入式 AI 芯片上视觉任务的神经网络设计

随着这几年神经网络和硬件(GPU)的迅猛发展,深度学习在包括互联网,金融,驾驶,安防等很多行业都得到了广泛的应用。然而在实际部署的时候,许多场景例如无人驾驶,安...

814
来自专栏大数据文摘

认罪吧,你的代码已经出卖了你!

近日,在Drexel大学任职计算机科学的副教授Rachel Greenstadt,及其他的博士学生(现为George Washington大学助教)Aylin ...

571
来自专栏IT技术精选文摘

Facebook 的应用机器学习平台

机器学习是Facebook许多重要产品和服务的核心技术。这篇论文来自Facebook的17位科学家和工程师,向世界介绍了Facebook应用机器学习的软件及硬件...

2844
来自专栏Material Design组件

About Face 4 第三章(下)构造人物模型

25812
来自专栏QQ大数据团队的专栏

用户增长分析——用户分群分析

29211
来自专栏小詹同学

Python 新手玩家都应该知道的编程技巧 !

大佬 ,我是一个小白 ,很想学习 Python ,它能做些什么啊 ?您这边有什么好的入门建议吗 ?

892
来自专栏AI科技大本营的专栏

一文详解启发式对话中的知识管理

【导读】自然语言对话系统正在覆盖越来越多的生活和服务场景,同时,自然语言对话的理解能力和对精细知识的对话召回率在技术上仍有很大挑战。

962

扫码关注云+社区