文章/答案/技术大牛

发布

深度学习在OCR中的应用论文及代码集锦（1）

文章来源：企鹅号 - 机器学习blog

[1] PixelLink: Detecting SceneText via Instance Segmentation

Dan Deng et al.

AAAI 2018

https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/viewFile/16469/16260

这篇文章提出了PixelLink，它是一种基于实例分割的场景文本检测算法。在这种算法中，文本实例分割是通过将同一个实例中的像素连接起来得到的。然后，文本边界直接从分割结果中提取，不需要利用位置回归来实现。

网络结构

实验结果如下

代码地址

https://github.com/ZJULearning/pixel_link

[2] Detecting Oriented Text in Natural Images by Linking Segments

Baoguang Shi Xiang Bai Serge Belongie

CVPR 2017

http://openaccess.thecvf.com/content_cvpr_2017/papers/Shi_Detecting_Oriented_Text_CVPR_2017_paper.pdf

这篇论文提出了一种带角度的文本检测算法，Segment Linking， SegLink。主要思想在于将文本分解成两个局部检测元素，分割和连接。分割是一个带方向的框，这种框可以覆盖一个单词或文本的一部分，连接可以将两个相邻的分割连起来，用来标记两个相邻的分割属于同一个单词或者文本。这两个元素都是用端到端训练的全连接的卷积神经网络检测到的。最终的检测是将连接把分割连起来得到的。SegLink可以检测非拉丁长文本，比如汉字。

SegLink 示例如下

网络结构示例如下

层内与层间Link示例如下

卷积预测算子输出的通道示例如下

组合分割的伪代码如下

实验结果示例如下

各方法效果对比如下

代码地址

https://github.com/dengdan/seglink

[3] Gated Recurrent Convolution Neural Network forOCR

Jianfeng Wang, Xiaolin Hu

NIPS 2017

https://papers.nips.cc/paper/6637-gated-recurrent-convolution-neural-network-for-ocr.pdf

这篇文章基于RecurrentConvolution Neural Network，RCNN，提出一种新的结构，Gated RCNN， GRCNN，用于OCR。这种结构的关键元素为Gated Recurrent Convolution Layer，GRCL，这种门限循环卷积层是通过对Recurrent Convolution Layer，RCL，加入门限得到的。这里的RCL是RCNN的关键元素。门限单元可以控制RCL中的上下文所起的作用，它能够平衡前向信息和循环信息。本文还构建了Bidirectional Long Short-Term Memory，BLSTM，用于序列建模。GRCNN和BLSTM结合即可识别自然图像中的文本。GRCNN-BLSTM可以端到端的训练。

RCL示例如下

GRCL示例如下

网络结构示例如下

各方法效果对比如下

代码地址

https://github.com/Jianfeng1991/GRCNN-for-OCR

[4] TextBoxes: A Fast Text Detector with a Single Deep Neural Network

Minghui Liao et al.

AAAI 2017

http://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/download/14202/14295

这篇文章给出一种端到端的快速场景文本检测算法，TextBoxes，这种算法基本不需要后处理。

网络结构示例如下

各方法效果对比如下

结果示例如下

代码地址

https://github.com/MhLiao/TextBoxes

[5] EAST: An Efficient and Accurate Scene Text Detector

Xinyu Zhou et al.

CVPR 2017

http://openaccess.thecvf.com/content_cvpr_2017/papers/Zhou_EAST_An_Efficient_CVPR_2017_paper.pdf

这篇文章提出一种高效且准确的场景文本检测算法，EAST （Efficient andAccuracy Scene Text）。

这篇文章的文本检测框架如下

几种相关方法的流程对比如下

局部敏感的NMS算法伪代码如下

算法效果示例如下

各算法对比如下

[6] Faster r-cnn: Towards real-time object detection with region proposal networks

Shaoqing Ren et al.

NIPS 2015

http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf

这篇文章提出一种更快的R-CNN，这种网络基于RPN，Region ProposalNetwork，RPN是一种全连接的卷积神经网络，它可以在每个位置预测物体的边界并且给出打分。结合Fast R-CNN，即可用于即时物体检测。

RPN及结果示例如下

各种方法效果对比如下

代码地址

https://github.com/ShaoqingRen/faster_rcnn

发表于: 2018-09-062018-09-06 08:00:04
原文链接：https://kuaibao.qq.com/s/20180906G09YP100?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

深度学习在OCR中的应用论文及代码集锦（1）

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐