前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >【每周CV论文】深度学习文本检测与识别入门必读文章

【每周CV论文】深度学习文本检测与识别入门必读文章

作者头像
用户1508658
发布2020-06-23 15:51:15
4200
发布2020-06-23 15:51:15
举报
文章被收录于专栏:有三AI有三AI

欢迎来到《每周CV论文推荐》。在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的。

文本检测和识别是计算机视觉的一个非常重要的应用,今天给大家推荐初入该领域可以读的文章。

作者&编辑 | 言有三

1 CTPN

文本与一般的目标有区别,比如没有精确而闭合的边缘,单个字符目标窄,但是整体文本串又较长。针对这个特点,研究者提出CTPN框架(Connectionist Text Proposal Network),通过检测行方向上宽度固定的文本提高定位精度,然后对相邻行进行合并来获取检测结果。

文章引用量:300+

推荐指数:✦✦✦✦✧

[1] Tian Z, Huang W, He T, et al. Detecting Text in Natural Image with Connectionist Text Proposal Network[C] . european conference on computer vision, 2016: 56-72.

2 TextBoxes

针对文本行一般比较长的特点,TextBoxes对SSD框架中的Default Box的长宽比以及卷积核的大小进行了相应的改变,本质上依旧是使用SSD框架进行检测。

文章引用量:150+

推荐指数:✦✦✦✦✧

[2] Liao M, Shi B, Bai X, et al. TextBoxes: a fast text detector with a single deep neural network[C]. national conference on artificial intelligence, 2017: 4161-4167.

3 R2CNN

与大部分目标检测问题的一个显著不同就是,文本往往是有倾斜方向的,因此检测结果框如果没有方向就不够精确,R2CNN框架即Rotational Region CNN,就是将最后的检测box定义为一个带方向的box,另外也会同时预测一个无方向(即水平)的框来包包裹有方向的box。

文章引用量:150+

推荐指数:✦✦✦✦✧

[3] Jiang Y, Zhu X, Wang X, et al. R2CNN: Rotational Region CNN for Orientation Robust Scene Text Detection.[J]. arXiv: Computer Vision and Pattern Recognition, 2017.

4 EAST

EAST是一个基于DenseBox的旋转文本检测框架,不过与R2CNN的不同之处在于,它不是在最终box回归的时候输出旋转框,而是使用了多个通道来预测旋转信息,比如4个通道预测边界距离,一个通道预测旋转角度。

文章引用量:300+

推荐指数:✦✦✦✦✦

[4] Zhou X, Yao C, Wen H, et al. EAST: An Efficient and Accurate Scene Text Detector[C]. computer vision and pattern recognition, 2017: 2642-2651.

5 RRPN

RRPN是一个基于Faster RCNN框架的旋转文本检测框架,与R2CNN和EAST不同的是,它采用了带方向的Region Proposal和RoI Pooling,因此本身就可以输出带方向的目标框。

文章引用量:200+

推荐指数:✦✦✦✦✧

[5] Ma J, Shao W, Ye H, et al. Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111-3122.

6 SegLink

文本有的时候非常的长,anchor box不一定能够很好覆盖,SegLink基于SSD目标检测方法进行改进。首先检测局部片段,然后通过规则将所有的片段进行连接,得到最终的文本行,这样做的好处是可以检测任意长度的文本行。

文章引用量:150+

推荐指数:✦✦✦✦✧

[6] Shi B, Bai X, Belongie S, et al. Detecting Oriented Text in Natural Images by Linking Segments[C]. computer vision and pattern recognition, 2017: 3482-3490.

7 CRNN

CRNN是一个端到端的文本识别框架,它输入整段的文本图片。CRNN使用CNN进行特征提取,RNN进行隐藏状态和空间特征建模,CTC用于对RNN的结果进行整合改进。

文章引用量:600+

推荐指数:✦✦✦✦✦

[7] Shi B, Bai X, Yao C, et al. An End-to-End Trainable Neural Network for Image-Based Sequence Recognition and Its Application to Scene Text Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(11): 2298-2304.

8 综述

最后,如果你想快速了解整个领域的发展现状,可以阅读相关的综述文章[8-9]。

[8] 王润民, 桑农, 丁丁,等. 自然场景图像中的文本检测综述[J]. 自动化学报, 2018, 044(012):2113-2141.

[9] Long S, He X, Yao C, et al. Scene Text Detection and Recognition: The Deep Learning Era.[J]. arXiv: Computer Vision and Pattern Recognition, 2018.

总结

本次我们介绍了初学文本检测和识别值得读的文章,另外当前文本检测和识别的研究难点在于任意形状文本检测,多语言文本识别,端到端检测与识别等方向,读者可以继续关注。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 有三AI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
图像识别
腾讯云图像识别基于深度学习等人工智能技术,提供车辆,物体及场景等检测和识别服务, 已上线产品子功能包含车辆识别,商品识别,宠物识别,文件封识别等,更多功能接口敬请期待。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档