专栏首页CVer中科大提出ContourNet:更准确的任意形状场景文本检测新方法

中科大提出ContourNet:更准确的任意形状场景文本检测新方法

本文转载自:CSIG文档图像分析与识别专委会

本文简要介绍2020年被CVPR录用的论文“ContourNet: Taking a Further Step toward Accurate Arbitrary-shaped Scene Text Detection”的主要工作。近年来场景文本检测的研究发展迅速,但其中有两个困难的挑战未被很好解决,算法容易产生伪召回(False Positives)以及对尺度变化剧烈的文本检测不准确。为此,本文提出ContourNet算法,设计了Adaptive-RPN模块生成更高精度质量的候选框,以及Local Orthogonal Texture-aware Module (LOTM)模块来解耦候选框中的水平和竖直方向的文本轮廓检测,从而向更精确的任意形状的场景文本检测又迈进一步。

图1 本文方法效果图

一、研究背景

场景文字图片中,文本尺度变化大,背景纹理复杂等困难导致了现有的场景文本检测算法普遍存在两个问题,伪召回(False Positives)多,以及对尺度变化剧烈的文本检测不准确。针对伪召回问题,现有的方法大多基于文本的上下文信息,全局与局部关系,以及纹理信息建模。本文作者观察发现,伪召回中的纹理特征具有强烈的无方向性,即类似物理上的各向同性,于是将其解耦为水平方向和竖直方向的轮廓检测,通过其联合响应来抑制伪召回。针对尺度变换剧烈问题,现有的方法多着眼于融合多尺度特征来预测边界框,作者则另辟蹊径关注文本自身形状信息的建模以及利用尺度不敏感的指标来优化网络的检测。

二、ContourNet原理简述

图2 网络整体框架图

图2是网络的整体框架图。ContourNet 由三个模块组成,第一个是Adaptive-RPN模块,用于生成高质量精度的矩形候选框;第二个是Local Orthogonal Texture-aware Module (LOTM)模块,用于解耦候选框中水平和竖直两个方向的轮廓检测;第三个是Point Re-scoring Algorithm模块,用于耦合水平和竖直方向的轮廓响应分数。下面分别介绍每个模块的结构。

主干网络采用类似FPN结构 [1],输出卷积特征到Adaptive-RPN,然后使用类似Faster RCNN [2]的方法,计算候选区域分类和回归损失。在其经典的RPN [2] 中,直接回归检测框中心点和长宽四个偏移量,而Adaptive-RPN则回归预定义好的9个点的坐标偏移量,(四角点,四条边中心点,候选框中心点),如图3所示。回归后取外围8点的最小包围框,而中心点则用于矫正(e.g. 包围框左边界超过中心点,直接取中心点为左界)。不同于使用经典的Smooth L1 loss[2],作者利用IoU loss [3] 的尺度不敏感特性来回归更准确的边界框。

图3 左图是经典RPN,右图是Adaptive-RPN。红点是预定义好的回归前的锚点,绿点是回归后的点,黄色箭头是回归偏移量方向示意。

图4为LOTM结构。LOTM模块的输入Proposal Features是在Adaptive-RPN后的共享特征图上使用Deformable RoI pooling [4] 和双线性插值得到。经过1*1卷积后,展开两个平行分支,解耦为水平和和竖直两个正交方向的轮廓检测。水平方向分支使用1*k的卷积核水平方向卷积,竖直方向分支则使用k*1的卷积核竖直方向卷积,k是超参数,实验验证使用k=3比较好。卷积后的特征图经过Sigmoid归一化得到相应方向的热图。LOTM使用交叉熵损失分类轮廓边界点。

图4 LOTM与Point Re-scoring Algorithm的结构。其中Point Re-scoring Algorithm只用于测试阶段。

Point Re-scoring Algorithm模块中,先对两个方向热图进行简单的NMS预处理滤波得到更高置信度的准确表征,然后综合考虑LOTM输出的水平和垂直方向上响应,即文本轮廓需同时具有两个方向的响应,滤除单方向噪声,从而抑制伪召回。

三、主要实验结果及可视化效果

Table 1. The single-scale results on Total-Text. * indicates the results from [5]. Ext is the short for external data used in training stage. y means testing at multi-scale setting. The evaluation protocol is DetEval.

Table 2. The single-scale results on CTW1500. * indicates the results from [6]. Ext is the short for external data used in training stage. + means testing at multi-scale setting.

Table 3. The single-scale results on ICDAR2015. * means testing at multi-scale setting. + means SE blocks [7] implemented in their backbone.

Table 4. The performance gain of Adaptive-RPN. * and + are results from CTW1500 and Total-Text respectively. Small, Middle and Large is short for small-size texts, middle-size texts and large size texts.

Table 5. The performance gain of LOTM on Total-Text. S direction means the texture information is only modeled along a single direction (horizontal direction is implemented here). Jointly means the method jointly models the texture information in a 3*3 convolutional kernel.

图5 可视化结果图

作者在Total-Text,CTW-1500,ICDAR2015,三个数据集上进行了测试,Table 1,Table 2,Table 3分别是模型在上述三个数据集的性能,可以看出ContourNet在有高精度的同时具有不错的速度。Table 4是使用RPN与本文提出的Adaptive-RPN对比结果,可以看出对不同尺度的文本都有一定的提升。Table 5是LOTM模块对比实验,可以看出使用单一方向或者3*3直接滑动卷积得到结果都比解耦成水平与竖直方向的LOTM差。

四、总结及讨论

本文提出了更精确的任意方向文本检测算法ContourNet,针对伪召回问题设计了文本水平与竖直方向的轮廓检测方法,针对尺度变换大的文本回归不准问题,使用改进的9点Adaptive-RPN回归与尺度不敏感的IoU Loss计算损失。论文通过实验对比也证明了该方法的高效性以及模型的优越性能。

五、相关资源

² ContourNet论文地址:https://arxiv.org/pdf/2004.04940.pdf

² ContourNet开源代码:https://github.com/wangyuxin87/ContourNet

参考文献

[1] Tsung-Yi Lin, Piotr Doll´ar, Ross B. Girshick, Kaiming He, Bharath Hariharan, and Serge J. Belongie. Feature pyramid networks for object detection. In CVPR, pages 936–944, 2017.

[2] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015.

[3] Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir Sadeghian, Ian Reid, and Silvio Savarese. Generalized intersection over union: A metric and a loss for bounding box regression. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 658–666, 2019.

[4] Xizhou Zhu, Han Hu, Stephen Lin, and Jifeng Dai. Deformable convnets v2: More deformable, better results. In CVPR, 2019.

[5] Shangbang Long, Jiaqiang Ruan, Wenjie Zhang, Xin He, Wenhao Wu, and Cong Yao. Textsnake: A flexible representation for detecting text of arbitrary shapes. In ECCV, pages 19–35. Springer, 2018.

[6] Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Canjie Luo, Sheng Zhang.Curved scene text detection via transverse and longitudinal sequence connection. Pattern Recognition 90:337–345.

[7] Jie Hu, Li Shen, and Gang Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7132–7141, 2018.

原文作者:Yuxin Wang, Hongtao Xie, Zhengjun Zha, Mengting Xing, Zilong Fu and Yongdong Zhang

文章分享自微信公众号:
CVer

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

原始发表时间:2020-06-18
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 2020422 | 10篇计算机视觉检测分类相关论文(附GitHub代码)

    Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object D...

    代码医生工作室
  • CVPR 2020 论文大盘点-文本图像篇

    本文盘点CVPR 2020 所有文本图像(text)相关论文,主要分为手写文本和场景文本两大方向,总计16篇,对文献进行了细致的分类,大部分论文是围绕识别问题的...

    CV君
  • 今日 Paper | 高效骨干搜索;学习扩充;最小人脸检测器;​DEPARA等

    论文名称:Efficient Backbone Search for Scene Text Recognition

    AI科技评论
  • 大盘点|OCR算法汇总

    介绍了一种基于旋转的新颖网络框架,用于自然场景图像中面向任意方向的文本检测。论文的主要思想为旋转区域提案网络(RRPN),该网络旨在生成带有文本方向角度信息的倾...

    3D视觉工坊
  • CVPR 2018 | 华中科技大学提出多向文本检测方法:基于角定位与区域分割

    选自arXiv 作者:Pengyuan Lyu等 机器之心编译 参与:Nurhachu Null、李泽南 在计算机视觉的应用场景里,对图像中的文本进行准确识别是...

    机器之心
  • AAAI 2020 | 从边界到文本—一种任意形状文本的检测方法

    本文对华中科大、阿里巴巴合作完成的、发表在AAAI 2020的论文《All You Need Is Boundary: Toward Arbitrary-Sha...

    AI科技评论
  • AI系统能否理解3D现实世界?Facebook做了这些研究

    作者:Georgia Gkioxari、Shubham Tulsiani、David Novotny

    机器之心
  • 首发 | 旷视14篇CVPR 2019论文,都有哪些亮点?

    回顾 CVPR 2018 ,旷视科技有 8 篇论文被收录,如高效的移动端卷积神经网络 ShuffleNet、语义分割的判别特征网络 DFN、优化解决人群密集遮挡...

    AI科技大本营
  • CVPR 2019 论文大盘点—文本图像相关篇

    其中研究文本检测的最多,共 7 篇,包括已经非常知名的PSENet,还有最近异常火爆的CRAFT。

    CV君
  • 14篇论文入选CVPR!快手视觉研究成果精华总结

    计算机视觉和模式识别领域的顶级会议 CVPR 正在进行中,本次大会接收率为 23.7%,其中快手有 14 篇论文被接收,这也是快手在国际视觉技术相关领域顶级会议...

    公众号-arXiv每日学术速递
  • 今日 Paper | 动态图像检索;实时场景文本定位;感知场景表示;双重网络等

    论文名称:Sketch Less for More: On-the-Fly Fine-Grained Sketch Based Image Retrieval

    AI科技评论
  • ICCV 2019 | 旷视研究院11篇接收论文抢先读

    两年一度的国际计算机视觉大会 ICCV 2019 ( IEEE International Conference on Computer Vision) 将于 ...

    AI科技评论
  • GitHub Trending第一之后,PaddleOCR再发大招:百度自研顶会SOTA算法正式开源!

    要说生活里最常见、最便民的AI应用技术,OCR(Optical Character Recognition,光学字符识别)当属其中之一。寻常到日常办理各种业务时...

    CV君
  • CVPR 2019 | 百度17篇论文入选,AI巨头都在关注什么?(附论文下载)

    计算机视觉和模式识别大会CVPR 2019即将于6月在美国长滩召开,作为人工智能领域计算机视觉方向的重要学术会议,CVPR每年都会吸引全球最顶尖的学术机构和公司...

    数据派THU
  • IJCAI 2018 | 阿里提出IncepText:全新多向场景文本检测模块

    机器之心
  • 17篇论文入选CVPR 2019,百度AI都在关注什么?(附论文地址)

    计算机视觉和模式识别大会CVPR 2019即将于6月在美国长滩召开,作为人工智能领域计算机视觉方向的重要学术会议,CVPR每年都会吸引全球最顶尖的学术机构和公司...

    AI科技大本营

扫码关注腾讯云开发者

领取腾讯云代金券