专栏首页CVer浙江大学和海康威视提出:视频场景文本定位算法SVST(集成检测,跟踪和识别于一体)

浙江大学和海康威视提出:视频场景文本定位算法SVST(集成检测,跟踪和识别于一体)

前戏

【导读】本文分享一篇浙江大学和海康威视最新联合提出的视频场景文本定位(Video Scene Text Spotting)方向的算法:SVST(spotting video scene text)。之前CVer曾分享过场景文本检测相关的论文

正文

《Efficient Video Scene Text Spotting: Unifying Detection, Tracking, and Recognition》

arXiv: https://arxiv.org/abs/1903.03299

github: None

作者团队:浙江大学 & 海康威视

注:2019年03月08日刚出炉的paper

Abstract:本文提出了一个统一的框架,用于有效地发现/定位视频中的场景文本(scene text)。 该方法定位并跟踪每个帧中的文本,并一次性识别每个跟踪的文本流。具体而言,我们首先训练空间 - 时间(spatial-temporal)文本检测器,用于定位连续帧中的文本区域。其次,训练设计良好的文本跟踪器(tracker),用于将定位的文本区域分组成相应的裁剪文本流。为了有效地发现视频文本,我们使用文本区域质量评分机制一次性识别每个跟踪的文本流,而不是逐个识别裁剪的文本区域。两个公共 benchmarks 测试的实验表明,我们的方法实现了很高效的性能。

本文算法(SVST)

SVST算法如下图所示,主要包含4个模块:

  • 文本检测器:spatial-temporal text detector(SVTD)
  • 文本跟踪器:text tracker(TRIN)
  • 质量评分器:quality scorer(TSSN)
  • 文本识别器:text recognizor

其中特征提取的网络是使用:ResNet Backbone + Conv Blocks组合

1 视频文本检测

文本检测框架如下图所示,将 EAST算法的backbone作为本算法的backbone。在这里,通过时空聚合(spatial-temporal aggregation)策略来学习连续帧之间的关系,以改善视频文本检测过程,可以分为三个步骤:1)利用特征变形机制增强帧之间的时间相干性,2)具有比较和匹配策略的帧之间的空间匹配,3)时间聚合。

2 文本区域跟踪

跟踪任务旨在将相应的文本区域分组为文本流(text streams),如下图所示。 直观地,跟踪器应该能够确保一个流中的文本区域的特征应该与相同流中的文本区域的特征具有比其他流更接近的距离,这意味着:1)这些特征必须具有足够的辨别力,以容忍无约束场景中的各种干扰,2)如果用良好的距离测量训练,模块可能会更好。

3 文本流评分

在本模块中,通过引用QAN(quality aware network)来构建文本流评分网络(TSSN),如下图所示。

4 文本识别

在本算法中,文本识别模块不是关注的焦点,所以只选择基于注意力(attention-based)的方法作为解码器。如下图所示:

5 联合学习TRIN和TSSN

实际上,如果 TRIN(文本跟踪器)TSSN(质量评分器)共享相同的神经网络(如下图所示)并且同时进行训练会更好,因为1)度量学习可以帮助提取文本流评分的高判别性特征,2)由文本脚本驱动的文本流评分任务可以帮助增强特征对不同文本的区分,以及 3)参数共享进一步降低了计算成本。

实验结果

本文在 IC13 和 IC15 数据集上进行测试,项目代码是基于Caffe框架进行实现。

文本检测实验结果:

文本跟踪实验结果

质量评分实验结果

文本识别实验结果

本文分享自微信公众号 - CVer(CVerNews),作者:Amusi

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • SegLink++:基于实例感知与组件组合的任意形状密集场景文本检测方法

    本文简要介绍Pattern Recognition 2019论文“SegLink++: Detecting Dense and Arbitrary-s...

    Amusi
  • 中科大提出ContourNet:更准确的任意形状场景文本检测新方法

    本文简要介绍2020年被CVPR录用的论文“ContourNet: Taking a Further Step toward Accurate Arbitrar...

    Amusi
  • 一文看尽10篇目标检测最新论文(SpineNet/AugFPN/LRF-Net/SABL/DSFPN等)

    一周前 Amusi 整理了 目标检测(Object Detection)较为值得关注的论文:

    Amusi
  • 海量短文本场景下的去重算法

    在大多数情况下,大量的重复文本一般不会是什么好事情,比如互相抄袭的新闻,群发的垃圾短信,铺天盖地的广告文案等,这些都会造成网络内容的同质化并加重数据库的存储负担...

    腾讯QQ大数据
  • 【NLP保姆级教程】手把手带你RCNN文本分类(附代码)

    之前介绍的都是属于深度神经网络框架的,那么在Deep Learning出现或者风靡之前,文本分类是怎么做的呢?

    kaiyuan
  • 文本挖掘 – Text mining

    文本摘要:许多文本挖掘应用程序需要总结文本文档,以便对大型文档或某一主题的文档集合做出简要概述。

    easyAI
  • 锚文本具体有那些作用?

    很多人都知道锚文本,但是很多人都不确切锚文本究竟改看看,一般做锚文本分为车站内做锚文本和站外锚文本,锚文本只不过是链接的一种方式,那么明确锚文本有那些作用呢?上...

    申霖
  • 【CSS/JS】如何实现单行/多行文本溢出的省略(...)--老司机绕过坑道的正确姿势

    写前端UI的朋友们也许都遇到过这样的问题:我们需要实现这样一个需求,在一个父级元素中隐藏一个可能过长的文本: 这个文本可能是单行的: ? 也可能是多行的: ? ...

    外婆的彭湖湾
  • <i>标签

    Html5知典
  • 德企开发出基于人工智能的新型文本分析技术

    新闻门户网站和社会媒体都含有丰富的信息资源,例如对股票市场趋势的预测信息。如今,很多服务提供商允许通过向其搜索引擎输入描述性关键字来搜索大量的文本集。然而关键词...

    人工智能快报

扫码关注云+社区

领取腾讯云代金券