专栏首页机器之心CVPR 2018 | 华中科技大学提出多向文本检测方法:基于角定位与区域分割

CVPR 2018 | 华中科技大学提出多向文本检测方法:基于角定位与区域分割

选自arXiv

作者:Pengyuan Lyu等

机器之心编译

参与:Nurhachu Null、李泽南

在计算机视觉的应用场景里,对图像中的文本进行准确识别是重要而相对困难的任务。来自华中科技大学的研究者们近日提出了一种全新的多项文本检测方法,大幅提高了机器学习的识别准确度。该研究已被即将于 6 月 18 日在美国盐湖城举行的 CVPR 2018 大会接收。

简介

最近,由于现实世界应用(如产品搜索 [4],图像检索 [19],以及自动驾驶)需求的增长,从自然场景图像中提取文本信息的研究正变得越来越流行。场景文本检测(Scene text detection)在各种文本读取系统中起着重要的作用 [34, 10, 47, 5, 20, 13, 7, 25],它的目标是在自然图像中定位出文本。

由于外部因素和内部因素,场景文本检测具有一定的挑战性。外部因素源自环境,例如噪声、模糊和遮挡,它们也是一般目标检测中存在的主要问题。内部因素是由场景文本的属性和变化引起的。与一般目标检测相比,场景文本检测更加复杂,因为:1)场景文本可能以任意方向存在于自然图像中,因此边界框可能是旋转的矩形或者四边形;2)场景文本边界框的长宽比变化比较大;3)因为场景文本的形式可能是字符、单词或者文本行的形式,所以在定位边界的时候算法可能会发生混淆。

图 1. 顶行和底行中的图像分别是左上角、右上角、右下角和左下角的预测角点和位置敏感图。

在过去几年中,随着一般目标检测和语义分割的快速发展,场景文本检测得到了广泛的研究 [10, 5, 49, 20, 43, 52, 39, 42],并且在最近取得了明显的进展。基于一般目标检测和语义分割模型,几个精心设计的模型使得文本检测能够更加准确地进行。这些文本检测器可以被划分为两个分支。第一个分支以一般目标检测器(SSD [30],YOLO [37] 和 DenseBox [18])为基础,例如 TextBoxes [27],FCRN [14] 以及 EAST [53] 等,它们直接预测候选的边界框。子二个分支以语义分割为基础,例如 [52] 和 [50],它们生成分割映射,然后通过后处理生成最终的文本边界框。

与前面的方法不同,来自华中科技大学的研究人员结合了目标检测和语义分割的思想,并将它们以一种可替代的方式进行了应用。新研究的动机主要来源于两方面的观察:1)不管矩形的大小如何、长宽比如何、方向如何,它都可以由角点决定;2)区域分割图可以提供有效的文本位置信息。所以,我们可以首先检测文本的角点(左上角、右上角、右下角和左下角)(如图 1 所示),而不是直接检测文本边界框。此外,我们预测位置敏感分割图(如图 1 所示),而不是像 [52] 和 [50] 中提到的文本/非文本图。最后,我们再通过角点进行采样和分组,以生成候选边界框,并通过分割信息消除不合理的边框。新的方法的处理流程如图 2 所示:

图 2. 方法概览。给定一幅图像,网络通过角点检测和位置敏感语义分割输出角点。然后通过对角点进行采样和分组得到候选的边框。最后,通过分割图对候选边框进行打分,并使用非极大抑制(NMS)对边框进行抑制。

新方法的关键优势如下:1)因为我们是通过对角点进行采样和分组来检测场景文本的,所以新的方法能够处理任意方向的文本;2)因为我们检测的是角点,而不是边界框,所以新的方法可以自然地避免边框比较大的问题;3)因为使用了位置敏感分割,所以无论是字符、单词,还是文本行,我们都能够较好地分割文本实例;4)在新方法中,候选边框的边界是由角点决定的。

研究人员在来自公共基准测试集上的水平文本、定向文本、长定向文本以及多语言文本中验证了该方法的有效性。结果显示新提出的算法在准确率和速度方面均有优势。具体而言,新方法在 ICDAR2015 [22] 上的 F-Measures 分别为 84.3 %、81.5 % 和 72.4 %,这显著优于现有的方法。此外,新方法在效率上也很有竞争力。它每秒可以处理 10.4 张以上的图像 ( 512×512 )。

该研究的主要贡献有四个方面:

(1)提出了一种融合目标检测和分割思想的场景文本检测器,这个场景文本检测器可以以端到端的方式进行训练和测试。

( 2 ) 在位置敏感 ROI 池化 [ 9] 的基础上,提出了一种旋转的位置敏感 ROI 平均池化层,可以处理任意方向的请求。

( 3 ) 新提出的方法可以同时处理多方向场景文本中的诸多挑战(如旋转、宽高比变化、非常闭合的实例)。

( 4 ) 新方法在精度和效率上均取得了较好或有竞争力的结果。

网络结构

新方法所用的网络全部是卷积神经网络,它扮演着特征提取器、角检测和位置敏感分割的角色。网络结构如图 3 所示。给定一张图片,网络会生成候选的角点和分割图。

图 3. 网络结构。网络包含三个部分:主干网络,角点检测器和位置敏感图预测器。主干网络来自于 DSSD [ 11 ]。角检测器是基于多特征层(紫色的模块)建立的。位置敏感分割预测器与角检测器共享了一些特征(紫色的模块)。

图 6. 检测结果的一些示例。从左到右依次是: ICDAR2015, ICDAR2013, MSRA-TD500, MLT, COCO-Text。

表 4. MSRA-TD500 上的测试结果。有†表示的模型不基于 VGG16。

表 6. COCO-Text 上的测试结果。∗代表多尺度。

论文:Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation

论文链接:https://arxiv.org/abs/1802.08948

摘要:此前基于深度学习的场景文本检测方法可以被粗略地分为两大类别。第一类将场景文本识别视作一种一般的目标检测问题,这类方法遵循一般目标检测的范式,通过回归文本框来定位场景文本,但是会受到任意方向和较大变化的长宽比的场景文本的困扰。第二类将文本区域进行直接分割,但是大都需要复杂的后处理过程。在这篇论文中,我们提出了一种能将这两类方法的思想进行结合,同时能够避免它们各自弱点的新方法。我们提出了通过定位文本边界框的角点,并在相对位置分割文本区域来检测场景文本的方法。在推理阶段,候选边框通过对角点的采样和分组得到,候选边框进一步通过分割图进行打分,然后使用非极大值抑制(NMS)方法对边框进行抑制。与之前的方法相比,我们的方法能够自然地处理长定向文本,并且不需要复杂的后处理过程。在 ICDAR2013、ICDAR2015、MSRA-TD500、MLT 和 COCO-Text 上的实验证明我们提出的方法能够在准确率和效率方面同时达到更好或者更具竞争力的结果。基于 VGG16,我们的方法在 ICDAR2015 上实现了 84.3% 的 F-measure,在 MSRA-TD500 上达到了 81.5% 的 F-measure。

本文为机器之心编译,转载请联系本公众号获得授权。

本文分享自微信公众号 - 机器之心(almosthuman2014)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-03-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 专栏 | 云脑科技-实习僧文本匹配模型及基于百度PaddlePaddle的应用

    机器之心
  • 资源 | 百万级字符:清华大学提出中文自然文本数据集CTW

    选自arXiv 作者:Tailing Yuan等 机器之心编译 参与:刘晓坤、李泽南 文字识别一直是图像处理领域中的重要任务。近日,清华大学与腾讯共同推出了中文...

    机器之心
  • 推断速度达seq2seq模型的100倍,谷歌开源文本生成新方法LaserTagger

    序列到序列(seq2seq)模型给机器翻译领域带来了巨大变革,并成为多种文本生成任务的首选工具,如文本摘要、句子融合和语法纠错。模型架构改进(如 Transfo...

    机器之心
  • 文本挖掘 – Text mining

    文本摘要:许多文本挖掘应用程序需要总结文本文档,以便对大型文档或某一主题的文档集合做出简要概述。

    easyAI
  • 锚文本具体有那些作用?

    很多人都知道锚文本,但是很多人都不确切锚文本究竟改看看,一般做锚文本分为车站内做锚文本和站外锚文本,锚文本只不过是链接的一种方式,那么明确锚文本有那些作用呢?上...

    申霖
  • 浙江大学和海康威视提出:视频场景文本定位算法SVST(集成检测,跟踪和识别于一体)

    【导读】本文分享一篇浙江大学和海康威视最新联合提出的视频场景文本定位(Video Scene Text Spotting)方向的算法:SVST(spotting...

    Amusi
  • 海量短文本场景下的去重算法

    在大多数情况下,大量的重复文本一般不会是什么好事情,比如互相抄袭的新闻,群发的垃圾短信,铺天盖地的广告文案等,这些都会造成网络内容的同质化并加重数据库的存储负担...

    腾讯QQ大数据
  • 【CSS/JS】如何实现单行/多行文本溢出的省略(...)--老司机绕过坑道的正确姿势

    写前端UI的朋友们也许都遇到过这样的问题:我们需要实现这样一个需求,在一个父级元素中隐藏一个可能过长的文本: 这个文本可能是单行的: ? 也可能是多行的: ? ...

    外婆的彭湖湾
  • <i>标签

    Html5知典
  • 德企开发出基于人工智能的新型文本分析技术

    新闻门户网站和社会媒体都含有丰富的信息资源,例如对股票市场趋势的预测信息。如今,很多服务提供商允许通过向其搜索引擎输入描述性关键字来搜索大量的文本集。然而关键词...

    人工智能快报

扫码关注云+社区

领取腾讯云代金券