专栏首页AI科技评论ICCV2019 | 任意形状文本检测的像素聚合网络

ICCV2019 | 任意形状文本检测的像素聚合网络

作者 | 刘崇宇

编辑 | Camel

本文简要介绍了2019年7月被ICCV录用的论文“Efficient and AccurateArbitrary-Shaped Text Detection with Pixel Aggregation Network”的主要工作。该论文主要解决了自然场景文本检测中的两个问题:一是如何权衡在自然场景任意形状文本检测的速度与精度,二是不规则文本的精准检测。

本文转载自「CSIG文档图像分析与识别专委会」公众号。

一、研究背景

自然场景文本检测是计算机视觉领域一项基础而又有挑战性的任务,它在现实生活中也有着广泛的应用。

近年来随着深度学习的发展,自然场景文本检测也取得了突破性的进展。在任意四边形文本的检测上,目前的很多方法比如EAST是非常高效的。但是,自然场景中存在着大量的任意形状而且不规则的文本,尽管针对这些不规则文本也有很多检测方法能得到很好的结果,但其检测速度会由于模型过于庞大或者复杂的后处理变得很慢,这会限制这些方法在现实生活中的应用。

该论文针对任意形状文本检测考虑了如何权衡模型的速度和性能的问题,提出了相应的检测模型—--像素聚合网络PAN,它在大幅提高任意形状文本检测性能的同时也显著提高了计算速度。

二、PAN原理简述

Fig.1. The overall pipeline of PAN

Fig.1 是像素聚合网络PAN的流程图。PAN的主要流程可以分为简单的两步,首先通过一个分割网络预测得到文本区域,文本核以及每个像素的相似向量;然后通过预测的核重建文本实例。

其中,文本区域是为了描述文本的完整形状,文本核参数为了区分不同的文本,预测每个像素的相似向量也是为了保证同一文本像素的相似向量和文本核距离够小。

Fig.2. Overall architecture of PAN

Fig.2是PAN的整体结构,它主要可以分为三个部分:主干网络、Segmentation Head以及可学习的后处理算法。

为了减少模型的计算量并提高效率,像素聚合网络PAN使用了轻量级的ResNet18作为主干网络。

但单纯使用这样一个浅层的主干网络会使得其不具备足够的感受野,而且不能提取到足够强的特征。为了解决这样的问题,PAN在主干网络后添加了一个Segmentation Head去增强特征表达。Segmentation Head包含了特征金字塔增强模块(FPEM)和特征融合模块 (FFM),经过这个结构,PAN预测得到了上述提到的文本区域,核以及相似向量。

最后,PAN使用一个简单而又可学习的后处理算法(Pixel Aggregation)得到最终的结果。

Fig.3. The details of FPEM

Segmentation Head中的特征金字塔增强模块(FPEM)是一个U形的模块,Fig.3展示了FPEM的结构细节,它包含了上采样增强和下采样增强两个阶段。

上采样增强作用于输入的特征金字塔,它以32、16、8、4个像素为步长在特征图上迭代增强,而下采样增强则是作用于上一阶段所产生的的特征金字塔并得到FPEM最终的输出,该阶段的增强步长为4-32。

FPEM有如下两个优势:第一,FPEM是可级联的,N个FPEM级联后的模块可以能够很好的融合不同尺度的特征,并且特征的感受野也会增大;第二,FPEM是由分离的只需要最小计算量的卷积组成,所以它的运算量很低,只有传统FPN的1/5。

Fig.4. The details of FFM

Segmentation Head中的特征融合模块(FFM)的结构细节如Fig.4所示,它能够将不同深度的FPEMs提取到的特征融合在一起,以此融合低级和高级的语义信息。FFM首先将相应尺寸的特征图逐像素相加(Element-wise),然后得到的特征会被上采样并连接成一个只有4ⅹ128的特征图。

经过Segmentation Head预测得到了文本区域、文本核和相似向量。文本区域虽然保留了文本的完整形状但也会出现区域重叠的情况,文本核可以区分不同的文本,但是它并不是完整的文本。

要得到完整的文本实例,PAN要把文本区域中的像素融合到文本核,于是提出了一个可学习的后处理算法----像素聚合(Pixel Aggregation)来指引不同的像素聚合到正确的核。

在像素聚合中,借鉴了聚类的思想,将文本实例的核视为聚类的中心,文本区域的像素是聚合样本,要将文本像素聚合到对应的核,则文本像素和相同文本的核的距离要很小。于是在训练阶段,用如下损失函数来引导像素聚类的训练:

此外,聚类中心也需要一直划分清楚,不同文本的核需要保持足够的距离。因此在训练时也用如下损失函数引导训练。

三、实验结果

TABLE 1. The results on SCUT-CTW1500.

TABLE 2. The results on Total-Text.

TABLE 3. The results on ICDAR 2015.

TABLE 4. The results on MSRA-TD500.

本文提出的PAN在不规则文本数据集SCUT-CTW1500和Total-Text以及任意四边形文本数据集ICDAR 2015和MSRA-TD500上表现非常出色。

PAN不仅在检测结果上达到了state-of-the-art的效果,而且在速度上比之前的方法都要快很多。

Fig.5展示了不同检测方法在SCUT-CTW1500的检测速度和表现的比较,可以看到PAN是效果最优且速度最快的。

Fig.5. The performance and speed on curved text dataset SCUT-CTW1500.

四、结论

这篇论文考虑了如何权衡场景文本检测中精度和速度这一重要问题,提出了一个可以实时检测任意形状文本的高效自然场景文本检测器PAN。

PAN使用了轻量的主干网络,并加入了包含特征金字塔增强模块和特征融合模块的Segmentation Head以增强特征表达,而且也不会带来额外的庞大计算量。

此外提出了可学习的后处理算法----Pixel Aggregation去预测文本核与周围像素的相似向量以得到完整的文本区域,避免了以往方法中繁琐的后处理方式。这些方法使得PAN在各数据集上取得最优结果的同时,检测的速度也能达到最优。

参考文献

[1] Wenhai Wang , Enze Xie and Xiaoge Song.Efficient and AccurateArbitrary-Shaped Text Detection with Pixel Aggregation Network. In ICCV, 2019.

[2] Tsung-Yi Lin, Piotr Doll´ar, Ross Girshick,Kaiming He, Bharath Hariharan, and Serge Belongie. Feature pyramid networksfor object detection. In CVPR, 2017.

[3] Xinyu Zhou, Cong Yao, He Wen, Yuzhi Wang,Shuchang Zhou, Weiran He, and Jiajun Liang. EAST: an efficient and accuratescene text detector. In CVPR, 2017.

[4] Xiang Li, Wenhai Wang, Wenbo Hou, Ruo-Ze Liu, Tong Lu, Jian Yang. Shape robust text detection withprogressive scale expansion network. In CVPR, 2019.

[5] Yuliang Liu, Lianwen Jin, Shuaitao Zhang, Sheng Zhang, Curved scene text detectionvia transverse and longitudinal sequence connection, Pattern Recognition,2019.

本文分享自微信公众号 - AI科技评论(aitechtalk),作者:刘崇宇

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 开发 | 手把手教你用 TensorFlow 实现文本分类(上)

    由于需要学习语音识别,期间接触了深度学习的算法。利用空闲时间,想用神经网络做一个文本分类的应用, 目的是从头到尾完成一次机器学习的应用,学习模型的优化方法,同时...

    AI科技评论
  • AAAI 2020 | 华南理工:面向文本识别的去耦注意力网络

    本文对华南理工大学和联想研究院共同完成,被AAAI-20录用的论文《Decoupled Attention Network for Text Recogniti...

    AI科技评论
  • 动态 | 12月19日,人工智能顶级论文报告会暨 CAAI 青年科技成果奖报告会将于哈工大(深圳)开幕

    AI 科技评论按:12 月 19 日(周三),由中国人工智能学会青年工作委员会主办、哈尔滨工业大学(深圳)计算机科学与技术学院承办的「人工智能顶级论文报告会暨...

    AI科技评论
  • 中科院计算所开源深度文本匹配开源工具 MatchZoo

    中国科学院计算技术研究所网络数据科学与技术重点实验室近日发布了深度文本匹配开源项目 MatchZoo。MatchZoo 是一个 Python 环境下基于 Ten...

    AI研习社
  • Spring Ioc 之 Bean的加载(二)

    Spring 只处理单例模式下得循环依赖,对于原型模式的循环依赖直接抛出异常。

    大王叫下
  • go笔记:go语言中使用协程异步并行

    超级大猪
  • 1.计算机发展阶段 计算机发展历史 机械式计算机 机电式计算机 电子计算机 逻辑电路与计算机 二极管 电子管 晶体管 硅 门电路 计算机 电磁学计算机二进制

    再后来有了一些数学理论的发展,纳皮尔棒/计算尺则是借助了一定的数学理论,可以理解为是一种查表计算法.

    noteless
  • windows查看端口占用 windows端口占用 查找端口占用程序 强制结束端口占用 查看某个端口被占用的解决方法 如何查看Windows下端口占用情况

    2.查询指定的端口被占用的情况   上图中本地地址一列中的冒号:  后面的数字就是端口号

    noteless
  • 中国泛娱乐生态发展报告

    前言   3月25日,UP2016腾讯互娱年度发布会(以下简称UP发布会)在北京国家会议中心举行。作为“泛娱乐”概念的倡导者、全球最具规模的互动娱乐服务提供商之...

    腾讯研究院
  • 2017年终总结:秋招心路历程+安卓/java知识总结Android 知识点总结Java知识点总结

    一直想写一篇年终总结的,但是又不知道写点什么,感觉没有什么可总结的,但是今年有很多事情还是值得回顾纪念的,之后再来看这些东西应该会感触颇多。2017对我来说是值...

    牛客网

扫码关注云+社区

领取腾讯云代金券