首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >浙江大学和海康威视提出:视频场景文本定位算法SVST(集成检测,跟踪和识别于一体)

浙江大学和海康威视提出:视频场景文本定位算法SVST(集成检测,跟踪和识别于一体)

作者头像
Amusi
发布2019-05-05 17:56:31
1.9K0
发布2019-05-05 17:56:31
举报
文章被收录于专栏:CVerCVer

前戏

【导读】本文分享一篇浙江大学和海康威视最新联合提出的视频场景文本定位(Video Scene Text Spotting)方向的算法:SVST(spotting video scene text)。之前CVer曾分享过场景文本检测相关的论文

正文

《Efficient Video Scene Text Spotting: Unifying Detection, Tracking, and Recognition》

arXiv: https://arxiv.org/abs/1903.03299

github: None

作者团队:浙江大学 & 海康威视

注:2019年03月08日刚出炉的paper

Abstract:本文提出了一个统一的框架,用于有效地发现/定位视频中的场景文本(scene text)。 该方法定位并跟踪每个帧中的文本,并一次性识别每个跟踪的文本流。具体而言,我们首先训练空间 - 时间(spatial-temporal)文本检测器,用于定位连续帧中的文本区域。其次,训练设计良好的文本跟踪器(tracker),用于将定位的文本区域分组成相应的裁剪文本流。为了有效地发现视频文本,我们使用文本区域质量评分机制一次性识别每个跟踪的文本流,而不是逐个识别裁剪的文本区域。两个公共 benchmarks 测试的实验表明,我们的方法实现了很高效的性能。

本文算法(SVST)

SVST算法如下图所示,主要包含4个模块:

  • 文本检测器:spatial-temporal text detector(SVTD)
  • 文本跟踪器:text tracker(TRIN)
  • 质量评分器:quality scorer(TSSN)
  • 文本识别器:text recognizor

其中特征提取的网络是使用:ResNet Backbone + Conv Blocks组合

1 视频文本检测

文本检测框架如下图所示,将 EAST算法的backbone作为本算法的backbone。在这里,通过时空聚合(spatial-temporal aggregation)策略来学习连续帧之间的关系,以改善视频文本检测过程,可以分为三个步骤:1)利用特征变形机制增强帧之间的时间相干性,2)具有比较和匹配策略的帧之间的空间匹配,3)时间聚合。

2 文本区域跟踪

跟踪任务旨在将相应的文本区域分组为文本流(text streams),如下图所示。 直观地,跟踪器应该能够确保一个流中的文本区域的特征应该与相同流中的文本区域的特征具有比其他流更接近的距离,这意味着:1)这些特征必须具有足够的辨别力,以容忍无约束场景中的各种干扰,2)如果用良好的距离测量训练,模块可能会更好。

3 文本流评分

在本模块中,通过引用QAN(quality aware network)来构建文本流评分网络(TSSN),如下图所示。

4 文本识别

在本算法中,文本识别模块不是关注的焦点,所以只选择基于注意力(attention-based)的方法作为解码器。如下图所示:

5 联合学习TRIN和TSSN

实际上,如果 TRIN(文本跟踪器)TSSN(质量评分器)共享相同的神经网络(如下图所示)并且同时进行训练会更好,因为1)度量学习可以帮助提取文本流评分的高判别性特征,2)由文本脚本驱动的文本流评分任务可以帮助增强特征对不同文本的区分,以及 3)参数共享进一步降低了计算成本。

实验结果

本文在 IC13 和 IC15 数据集上进行测试,项目代码是基于Caffe框架进行实现。

文本检测实验结果:

文本跟踪实验结果

质量评分实验结果

文本识别实验结果

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-03-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前戏
  • 正文
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档