IJCAI 2018 | 阿里提出IncepText:全新多向场景文本检测模块

选自arXiv

作者:Qiangpeng Yang等

机器之心编译

参与:乾树、李泽南

文本检测在很多应用中扮演着重要的角色,但这也是一个颇具挑战性的任务。阿里近期提出的端到端场景文本检测器 IncepText 在多个数据集的测试中实现了业内最佳水平,并已发布了开放的 OCR 产品接口。本研究的论文已被即将在 7 月于瑞典举行的 IJCAI 2018 大会接收。

场景文本检测是众多计算机视觉应用中最具挑战性的任务之一,它会应用在多语言翻译、图像检索、自动驾驶等场景中。其中,首当其冲的挑战是场景文本会包含各种图像,如街景、海报、菜单、室内场景等。此外,场景文本在前景文本和背景对象中都有很大的变化,并且还具有不同的光照、模糊和方向条件。

在过去几年里,场景文本检测方向涌现了很多杰出的算法。文本检测的关键在于设计正确区分文本区域和非文本区域的特征。多数传统方法如 MSER [Neumann and Matas,2010] 和 FASText [Busta et al.,2015] 都使用手动设计的文本特征。

但这些方法不足以处理复杂的场景文本。最近,基于卷积神经网络(CNN)的方法在文本检测和识别 l 领域取得了傲人的成果 [He et al., 2016b; Tian et al., 2016; Zhou et al., 2017; He et al., 2017]。基于 CNN 的模型具有强大的特征表示能力,且更深的 CNN 模型能够提取更高级别或更抽象的特征。

在该领域,主要有两种类型的场景文本检测方法,即间接回归和直接回归。间接回归方法预测 box proposals 的坐标,如 CTPN [Tian et al。,2016] 和 RRPN [Ma et al。,2017] 等研究。这些方法都是基于 FasterRCNN [Ren et al.,2015] 框架。

近期,直接回归方法在场景文本检测上已经取得了不俗的表现,例如,East [Zhou et al,2017] 和 DDR [He et al,2017] 等研究。

在阿里的论文中,研究人员受到 FCIS 实例分割启发试图解决这个问题 [Li et al。,2016]。与普通的物体检测不同,场景文本经常会遇到很大的尺度,长宽比及方向的变化。因此,我们设计了一个创新性的 Inception-Text 模块来解决这些挑战。

该模块受 GoogLeNet 中的 Inception 模块 [Szegedy et al,2015] 的启发得出,研究人员采用多个不同卷积核的卷积分支来处理不同长宽比和比例的文本。我们在每个分支后面接一个可变形的卷积层以适应多方向文本。

相比原型,另一个改进是我们用可变形的 PSROI 池化层来替换 FCIS 中的 PSROI 池化层 [Dai et al,2017a]。根据实验来看,可变形的 PSROI 池化层在分类任务中表现更好。

本研究的主要贡献如下:

  • 我们提出了一个用于多方向场景文本检测的新的 Inception-Text 模块。实验表明,该模块可以大幅提高准确率,且计算成本很低。
  • 我们提出使用可变形的 PSROI 池化模块来处理多方向的文本。在对可变形 PSROI 池化和量化评估学习到的偏移部分进行的量化研究表明,它可以有效处理任意方向的场景文本。
  • 我们在三个基准数据集 ICDAR2015,RCTW-17 和 MSRA-TD500 上评估了新方法,结果表明新的方法在没有任何额外数据的情况下,在几个基准测试中都取得了业内最优的表现。
  • 我们提出的方法已在阿里公开发布的 OCR 产品中作为 API 服务实现。

在这篇论文中,我们会首先简要介绍场景文本检测,主要关注多方向场景文本检测。然后详细讲解新提出的方法,并在三个公共基准数据集上给出实验结果。最后进行总结,并讨论未来的工作。

提出的方法

我们提出的方法基于最初被提出用于实例分割的 FCIS [Li et al,2016] 框架。我们设计了一个创新的 Inception-Text 模块,并使用可变形的 PSROI 池化层来扩展该框架。图 1 给出了我们提出的模型体系结构的概述。

在图 1 中,基础特征提取模块是 ResNet50 [He et al,2016a]。精细的特征信息对于分割任务尤为重要,对于场景文本检测,第 5 阶段的下采样可能会丢失一些有用的信息。

因此,我们在第 5 阶段利用带孔卷积算法(hole algorithm)[Long et al,2015] 维持感受野。这一阶段的步长也由 2 改为 1,并且为了弥补步长减小带来的问题,这一阶段的所有卷积滤波器都使用带孔卷积来补偿减小的步幅。

为了预测小文本区域的准确位置,还需要考虑低级别特征。如图 1 所示,res4f 层和 res5c 层上采样 2 倍,再与 res3d 层相加。这两个融合的特征图后面接着用于场景文本检测的 Inception-Text 模块。

我们用可变形 PSROI 池化来替换 FCIS 中的 PSROI 池化,因为标准 PSROI 池化只能处理水平文本,而场景文本方向总是不确定的。类似于 FCIS,我们获得了如图 1 所示的带有 mask 和分类分数的文本框,然后根据他们的分数将 NMS 应用到框中。

对于每个未被抑制的框,我们要找到它的相似框,即与其自身 IoU> = 0.5 的框。未抑制的框预测的 mask 与其相似框通过使用分类分数作为它们的平均权重逐像素地进行加权平均来合并。然后使用一个简单的最小四边形算法来生成方向框。

图 1:IncepText 体系结构。该图中的基础特征提取模块是 ResNet-50。Inception-Text 模块在特征融合层后面,原始 PSROI 池化被替换为可变形的 PSROI 池化。

图 2: Inception-Text 模块。

图 3:标准卷积和可变形卷积之间的比较。标准卷积(a)中的感受野是固定的,而可变形卷积(b)的感受野是自适应的。

图 8:我们的方法在 ICDAR2015(a)、RCTW-17(b)、MSRA-TD500(c)上的检测结果。(d)中列出了一些失败案例。红色框是 ground-truth 实景框,而绿色框是预测结果。黄色椭圆的边界框表示错误结果。

表 2:ICDAR2015 附带场景文本定位任务的结果。

论文:IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection(IncepText:一种新的具有可变形 PSROI 池化的用于多向场景文本检测的 Inception-Text 模块)

论文链接:https://arxiv.org/abs/1805.01167

摘要:附带场景文本检测,尤其是多向文本检测,是众多计算机视觉应用中最具挑战性的任务之一。与常见的物体检测任务不同,场景文本的长宽比,尺度和方向常常会发生巨大变化。

为了解决这一问题,我们从实例分割的角度提出了一种创新性的端到端场景文本检测器 IncepText。我们设计了一个新的 Inception-Text 模块,并引入了可变形的 PSROI 池化来处理多向文本检测。基于 ICDAR2015,RCTW-17 和 MSRA-TD500 数据集的大量拓展实验证明了我们方法的高效和可行性。

我们提出的方法在 ICDAR2015 比赛中获得第一名,并在其他数据集上获得最好的性能。此外,我们还发布了公众可访问的 OCR 产品接口。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2018-05-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

刷剧不忘学CNN:TF+Keras识别辛普森一家人物 | 教程+代码+数据集

王小新 编译自 Medium 量子位 出品 | 公众号 QbitAI Alexandre Attia是《辛普森一家》的狂热粉丝。他看了一系列辛普森剧集,想建立一...

3235
来自专栏人工智能头条

王晓刚:图像识别中的深度学习

2812
来自专栏磐创AI技术团队的专栏

一个完整的机器学习项目在Python中演练(四)

1425
来自专栏深度学习自然语言处理

深度学习数学基础一--最小二乘法

之前总是先上手一些比较高级的神经网络算法,CNN,RNN等。可是总觉得有些知识原理总是羁绊着我进一步理解。这才意识到基础的重要性。所以,就一点一点的从基础数学最...

3269
来自专栏大数据文摘

机器学习算法在自动驾驶汽车中扮演怎样的角色

1503
来自专栏PPV课数据科学社区

机器学习:你需要多少训练数据?

作者为Google 软件工程师,美国西北大学电子信息工程博士,擅长大规模分布式系统,编译器和数据库。 ? 从谷歌的机器学习代码中得知,目前需要一万亿个训练样...

3615
来自专栏IT派

一文助你解决数据不平衡的疑惑

导语:这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平...

3328
来自专栏技术小站

吴恩达深度学习笔记 course3 week2 机器学习 策略(2)

例:当我们在训练一个模型的时候,我们的准确率是90%,bayes optimized bias是0%,这个时候错误率达到了10%,那么我们如何分析是哪错了,并且...

1252
来自专栏大数据挖掘DT机器学习

在数据量不足的情况下,用那种数据挖掘模型效果会更好?

雷天琪 法国电信 机器学习实习生 巴黎综合理工学院(École Polytechnique) 知乎链接:http://www.zhihu.com/ques...

4046
来自专栏CSDN技术头条

逻辑回归 vs 决策树 vs 支持向量机(II)

本文是该系列的第二篇,第一篇参见: 逻辑回归 Vs 决策树 Vs 支持向量机: Part I. 在这篇文章,我们将讨论如何在逻辑回归、决策树和SVM之间做出最佳...

2006

扫码关注云+社区