[1] PixelLink: Detecting SceneText via Instance Segmentation
Dan Deng et al.
AAAI 2018
https://www.aaai.org/ocs/index.php/AAAI/AAAI18/paper/viewFile/16469/16260
这篇文章提出了PixelLink,它是一种基于实例分割的场景文本检测算法。在这种算法中,文本实例分割是通过将同一个实例中的像素连接起来得到的。然后,文本边界直接从分割结果中提取,不需要利用位置回归来实现。
网络结构
实验结果如下
代码地址
https://github.com/ZJULearning/pixel_link
[2] Detecting Oriented Text in Natural Images by Linking Segments
Baoguang Shi Xiang Bai Serge Belongie
CVPR 2017
http://openaccess.thecvf.com/content_cvpr_2017/papers/Shi_Detecting_Oriented_Text_CVPR_2017_paper.pdf
这篇论文提出了一种带角度的文本检测算法,Segment Linking, SegLink。主要思想在于将文本分解成两个局部检测元素,分割和连接。分割是一个带方向的框,这种框可以覆盖一个单词或文本的一部分,连接可以将两个相邻的分割连起来,用来标记两个相邻的分割属于同一个单词或者文本。这两个元素都是用端到端训练的全连接的卷积神经网络检测到的。最终的检测是将连接把分割连起来得到的。SegLink可以检测非拉丁长文本,比如汉字。
SegLink 示例如下
网络结构示例如下
层内与层间Link示例如下
卷积预测算子输出的通道示例如下
组合分割的伪代码如下
实验结果示例如下
各方法效果对比如下
代码地址
https://github.com/dengdan/seglink
[3] Gated Recurrent Convolution Neural Network forOCR
Jianfeng Wang, Xiaolin Hu
NIPS 2017
https://papers.nips.cc/paper/6637-gated-recurrent-convolution-neural-network-for-ocr.pdf
这篇文章基于RecurrentConvolution Neural Network,RCNN,提出一种新的结构,Gated RCNN, GRCNN,用于OCR。这种结构的关键元素为Gated Recurrent Convolution Layer,GRCL,这种门限循环卷积层是通过对Recurrent Convolution Layer,RCL,加入门限得到的。这里的RCL是RCNN的关键元素。门限单元可以控制RCL中的上下文所起的作用,它能够平衡前向信息和循环信息。本文还构建了Bidirectional Long Short-Term Memory,BLSTM,用于序列建模。GRCNN和BLSTM结合即可识别自然图像中的文本。GRCNN-BLSTM可以端到端的训练。
RCL示例如下
GRCL示例如下
网络结构示例如下
各方法效果对比如下
代码地址
https://github.com/Jianfeng1991/GRCNN-for-OCR
[4] TextBoxes: A Fast Text Detector with a Single Deep Neural Network
Minghui Liao et al.
AAAI 2017
http://www.aaai.org/ocs/index.php/AAAI/AAAI17/paper/download/14202/14295
这篇文章给出一种端到端的快速场景文本检测算法,TextBoxes,这种算法基本不需要后处理。
网络结构示例如下
各方法效果对比如下
结果示例如下
代码地址
https://github.com/MhLiao/TextBoxes
[5] EAST: An Efficient and Accurate Scene Text Detector
Xinyu Zhou et al.
CVPR 2017
http://openaccess.thecvf.com/content_cvpr_2017/papers/Zhou_EAST_An_Efficient_CVPR_2017_paper.pdf
这篇文章提出一种高效且准确的场景文本检测算法,EAST (Efficient andAccuracy Scene Text)。
这篇文章的文本检测框架如下
几种相关方法的流程对比如下
局部敏感的NMS算法伪代码如下
算法效果示例如下
各算法对比如下
[6] Faster r-cnn: Towards real-time object detection with region proposal networks
Shaoqing Ren et al.
NIPS 2015
http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf
这篇文章提出一种更快的R-CNN,这种网络基于RPN,Region ProposalNetwork,RPN是一种全连接的卷积神经网络,它可以在每个位置预测物体的边界并且给出打分。结合Fast R-CNN,即可用于即时物体检测。
RPN及结果示例如下
各种方法效果对比如下
代码地址
https://github.com/ShaoqingRen/faster_rcnn
领取专属 10元无门槛券
私享最新 技术干货