专栏首页CVerSegLink++:基于实例感知与组件组合的任意形状密集场景文本检测方法

SegLink++:基于实例感知与组件组合的任意形状密集场景文本检测方法

本文授权转载自:CSIG文档图像分析与识别专委会

本文简要介绍Pattern Recognition 2019论文“SegLink++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping”的主要工作。该论文提出一种对文字实例敏感的自下而上的文字检测方法,解决了自然场景中密集文本和不规则文本的检测问题。该论文提出的Instance-aware Component Grouping(ICG)方法,能够在自下而上的文字检测方法的基础上大大提高密集文本检测的效果。在该论文提出的一个商品密集文本检测数据集DAST1500上,该方法的结果明显优于同时期的其他文字检测方法。

Fig.1. Comparison of different scene text detectors on one proposed DAST1500 image. (a)SegLink; (b) CTD+TLOC; (c) PixelLink; (d)Proposed ICG.

一、研究背景

近年来场景文字检测工作主要分为两大类:自上而下的方法和自下而上的方法。自上而下的方法主要借鉴的是通用物体检测的思路,并且根据文字的特点设计相应的检测模型。这类方法通常难以处理不规则文本的检测问题。自下而上的方法,通常先学习文本行的基本组成单元,然后进行单元之间的组合得到文本行检测框。由于其灵活的表征方式,对不规则形状的文本检测有着天然的优势。自下而上的方法按照组成单元的不同又分为两类:组成单元为像素的基于分割的方法,以及组成单元为文字块的基于单元组合的方法。但是,自下而上的方法通常很难区分密集文本。密集文本检测问题是文本检测中一个广泛存在的难点问题。

二、原理简述

Fig.2. Pipeline of the proposed method.

现有的自下而上的文字检测方法存在两个问题:一是难以区分密集文本,二是自下而上的方法通常需要一定的后处理进行单元组合,而这个后处理过程一般不能和网络一起进行端到端的训练。为了解决这些问题,该论文首先提出了一种文本块单元之间的吸引关系和排斥关系的表征,然后设计了一种最小生成树算法进行单元组合得到最终的文本检测框。另外,该论文还设计了Instance-aware Loss损失函数,把文本行实例的信息引入到文本块单元的训练过程,实现了后处理过程和网络端到端的训练。

具体的方法细节如图2所示。对于一张待检测的图片,先用VGG16网络进行特征提取,然后在不同层得到网络输出,其中有文字块单元的分类得分和文字块单元检测框的回归值,包括中心偏移量,宽和高以及旋转角度。另外,网络在不同层还会学习相邻文字块单元之间的吸引和排斥的强弱程度。对应到图2中,蓝色框表示文字块单元,绿色线段表示文字块单元之间的吸引关系,红色线段表示文字块单元之间的排斥关系,为了表示的方便,只画了其中两行文字中的文字块单元以及单元关系。

在后处理阶段,首先利用阈值得到有效的文字块单元。这些单元以及之间的连接关系可以构成一个图的表征G=(V,E)。其中的节点V代表多尺度的图像金字塔中的文字块单元,边E代表在同一层以及跨层的文字块单元之间的连接关系。其中每个边对应这两个吸引和排斥权重值:

然后设计了一种最小生成树算法进行文字块单元组合,算法伪代码如图3所示。具体的算法流程是,按照吸引关系和排斥关系的强弱值从大到小考察每个关系。如果是吸引关系,则其连接的两个文字单元属于同一个文字单元组;如果是排斥关系,则其连接的两个文字单元之间有一个排斥的约束。遍历所有有效的文字块单元关系,可以得到组合好的文字块单元组,对应图2中,不同的文字块单元组用不同的颜色表示。最后,利用每组文字块单元,可以提取出对应的文字区域的外接检测框。

Fig.3. Modified MST for text component grouping.

本文的损失函数分为两部分,

。一部分是文字块单元分类和回归的损失函数

,另一部分是单元关系的损失函数

。这两个函数都有一个实例相关的权重

,该权重衡量的是对应标注框与最优检测框的匹配程度,用每个标注框

与检测框最大的

的倒数表示,整个过程对应图2的绿色虚线框,论文中称之为Instance-aware Loss。这样可以把后处理过程引入到网络的训练过程中,自适应调节每个文字区域中的文字单元和单元关系的损失函数权重,从而进一步提升文字检测效果。

三、主要实验结果及可视化效果

为了验证方法在不规则密集文本上的检测效果,本文公开了一个商品密集行数据集DAST1500,包括1036张训练图片和500张测试图片,利用ICDAR2015的IoU0.5的方法进行评测。

Fig. 4. Some qualitative results on DAST1500, ICDAR15 and CTW1500.

从Table 1来看,文中的方法在商品密集行数据集DAST1500上取得了优异的性能,大幅领先同时期的其他方法。从方法自身的对比来看,在Baseline基础上引入文字块单元间吸引和排斥的关系表征以及Instance-aware Loss都能有效提升密集文本检测效果。

对于Table 2,文中的方法在ICDAR15多方向文本检测数据集上取得较好的结果,而且检测效率也不错。另外对于Table 5,在CTW1500曲形文本检测数据集上,本文的方法也取得很好的结果,优于同时期的其他方法。

图4展示了一些可视化的结果图。可以看到,该方法能处理任意形状的文本,在商品密集文本上也能取得很好的检测效果。

四、总结及讨论

本文提出了一种Instance-aware Component Grouping(ICG)的自下而上的文字检测方法,实验证明该方法在检测不规则密集文本上的有效性和优越性。ICG中文字块单元之间吸引和排斥关系的表征,以及对文字行实例敏感的Instance-aware Loss,都能够显著改善自下而上的文字检测方法的检测效果。

五、相关资源

  • 论文链接:https://doi.org/10.1016/j.patcog.2019.06.020
  • 下载链接:http://www.vlrlab.net/papers/xu/icg.pdf
  • DAST1500数据集链接:https://tianchi.aliyun.com/dataset/dataDetail?dataId=12084

原文作者:Jun Tang, Zhibo Yang, Yongpan Wang, Qi Zheng, Yongchao Xu, Xiang Bai

撰稿:汤 俊 编排:高 学

审校:殷 飞 发布:金连文

免责声明:(1)本文仅代表撰稿者观点,个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。

本文分享自微信公众号 - CVer(CVerNews)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-12-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 浙江大学和海康威视提出:视频场景文本定位算法SVST(集成检测,跟踪和识别于一体)

    【导读】本文分享一篇浙江大学和海康威视最新联合提出的视频场景文本定位(Video Scene Text Spotting)方向的算法:SVST(spotting...

    Amusi
  • [计算机视觉论文速递] 2018-04-03

    通知:这篇文章有9篇论文速递信息,涉及人脸、目标检测、显著性目标检测和图像分割等方向 往期回顾 TensorFlow.js人脸识别—玩转吃豆豆小游戏 [计算机...

    Amusi
  • 【重磅】TensorFlow中文社区论坛发布

    昨天Amusi在刷微信公众号推文,突然看到"TensorFlow"官方微信推送的文章,瞬间就被点燃了。对于这种标题党“TensorFlow中文社区论坛 (测试版...

    Amusi
  • Zynq中PL端SPI接口

    SPI接口主要应用在 EEPROM,FLASH,实时时钟,AD转换器,还有数字信号处理器和数字信号解码器之间。SPI,是一种高速的,全双工,同步的通信总线,并且...

    瓜大三哥
  • 强力推荐!飞桨产业级PaddleCV最新全景图

    导读:PaddleCV是飞桨开源的产业级CV工具与预训练模型集,提供了依托于百度实际产品打磨,能够极大地方便 CV 研究者和工程师快速应用。使用者可以使用Pad...

    用户1386409
  • 同样是海外品牌旗舰店,网易考拉为何喜欢自营直采?

    孟永辉
  • 数据分析利器 pandas 系列教程(二):强大的 DataFrame

    dataframe 是表格型的数据结构,由一组有序的列组成,可以看成是由 Series 组成的字典,举个例子:

    月小水长
  • 大数据ETL实践探索(5)---- 大数据ETL利器之 pandas

    官网: http://pandas.pydata.org/pandas-docs/stable/

    流川疯
  • 手把手教你用 TensorFlow 实现文本分类(上)

    由于需要学习语音识别,期间接触了深度学习的算法。利用空闲时间,想用神经网络做一个文本分类的应用, 目的是从头到尾完成一次机器学习的应用,学习模型的优化方法,同时...

    AI研习社
  • 2018世界杯数据清单:真球迷看球必备,伪球迷速成指南(附完整赛程)

    用段子缓解尴尬?本届世界杯没有中国队、没有贝克汉姆、没有科比、没有姚明之类的老梗已经烂大街了,完全笑不出来好吗?

    华章科技

扫码关注云+社区

领取腾讯云代金券