深度学习在OCR中的应用论文及代码集锦(1)

[1] PixelLink: Detecting SceneText via Instance Segmentation

Dan Deng et al.

AAAI 2018

https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/viewFile/16469/16260

这篇文章提出了PixelLink,它是一种基于实例分割的场景文本检测算法。在这种算法中,文本实例分割是通过将同一个实例中的像素连接起来得到的。然后,文本边界直接从分割结果中提取,不需要利用位置回归来实现。

网络结构

实验结果如下

代码地址

https://github.com/ZJULearning/pixel_link

[2] Detecting Oriented Text in Natural Images by Linking Segments

Baoguang Shi Xiang Bai Serge Belongie

CVPR 2017

http://openaccess.thecvf.com/content_cvpr_2017/papers/Shi_Detecting_Oriented_Text_CVPR_2017_paper.pdf

这篇论文提出了一种带角度的文本检测算法,Segment Linking, SegLink。主要思想在于将文本分解成两个局部检测元素,分割和连接。分割是一个带方向的框,这种框可以覆盖一个单词或文本的一部分,连接可以将两个相邻的分割连起来,用来标记两个相邻的分割属于同一个单词或者文本。这两个元素都是用端到端训练的全连接的卷积神经网络检测到的。最终的检测是将连接把分割连起来得到的。SegLink可以检测非拉丁长文本,比如汉字。

SegLink 示例如下

网络结构示例如下

层内与层间Link示例如下

卷积预测算子输出的通道示例如下

组合分割的伪代码如下

实验结果示例如下

各方法效果对比如下

代码地址

https://github.com/dengdan/seglink

[3] Gated Recurrent Convolution Neural Network forOCR

Jianfeng Wang, Xiaolin Hu

NIPS 2017

https://papers.nips.cc/paper/6637-gated-recurrent-convolution-neural-network-for-ocr.pdf

这篇文章基于RecurrentConvolution Neural Network,RCNN,提出一种新的结构,Gated RCNN, GRCNN,用于OCR。这种结构的关键元素为Gated Recurrent Convolution Layer,GRCL,这种门限循环卷积层是通过对Recurrent Convolution Layer,RCL,加入门限得到的。这里的RCL是RCNN的关键元素。门限单元可以控制RCL中的上下文所起的作用,它能够平衡前向信息和循环信息。本文还构建了Bidirectional Long Short-Term Memory,BLSTM,用于序列建模。GRCNN和BLSTM结合即可识别自然图像中的文本。GRCNN-BLSTM可以端到端的训练。

RCL示例如下

GRCL示例如下

网络结构示例如下

各方法效果对比如下

代码地址

https://github.com/Jianfeng1991/GRCNN-for-OCR

[4] TextBoxes: A Fast Text Detector with a Single Deep Neural Network

Minghui Liao et al.

AAAI 2017

http://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/download/14202/14295

这篇文章给出一种端到端的快速场景文本检测算法,TextBoxes,这种算法基本不需要后处理。

网络结构示例如下

各方法效果对比如下

结果示例如下

代码地址

https://github.com/MhLiao/TextBoxes

[5] EAST: An Efficient and Accurate Scene Text Detector

Xinyu Zhou et al.

CVPR 2017

http://openaccess.thecvf.com/content_cvpr_2017/papers/Zhou_EAST_An_Efficient_CVPR_2017_paper.pdf

这篇文章提出一种高效且准确的场景文本检测算法,EAST (Efficient andAccuracy Scene Text)。

这篇文章的文本检测框架如下

几种相关方法的流程对比如下

局部敏感的NMS算法伪代码如下

算法效果示例如下

各算法对比如下

[6] Faster r-cnn: Towards real-time object detection with region proposal networks

Shaoqing Ren et al.

NIPS 2015

http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf

这篇文章提出一种更快的R-CNN,这种网络基于RPN,Region ProposalNetwork,RPN是一种全连接的卷积神经网络,它可以在每个位置预测物体的边界并且给出打分。结合Fast R-CNN,即可用于即时物体检测。

RPN及结果示例如下

各种方法效果对比如下

代码地址

https://github.com/ShaoqingRen/faster_rcnn

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180906G09YP100?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券