前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >ICPR2022多模态字幕识别比赛技术成果开放

ICPR2022多模态字幕识别比赛技术成果开放

作者头像
腾讯技术工程官方号
发布2022-06-08 19:10:11
1.2K0
发布2022-06-08 19:10:11
举报
文章被收录于专栏:腾讯技术工程官方号的专栏

ICPR2022多模态字幕识别比赛(Multimodal Subtitle Recognition简称MSR竞赛),日前圆满结束了。

本次竞赛由Tencent OCR & ASR Oteam 联合华南理工、华中科技大学、联想等依托于计算机国际学术顶会ICPR举办,吸引了376位来自各大高校和企业的参赛者报名,26支队伍,提交次数高达932次。

大赛聚焦多模态字幕识别,希望推动字幕识别技术的准确性和应用性的进一步提升,弥补该技术领域的空白,并为学术界和业界创造交流机会

01 赛事背景

伴随着短视频、网络直播的迅速崛起,视频数据呈现爆发式增长,视频内容识别面临更大的挑战。视频字幕和语音识别相关的问题研究,一直广受关注。本竞赛旨在推进多模态字幕识别模型研究,这类模型能够很好地辅助视频创作、视频内容推荐等应用。

不同于从单一模态中提取字幕,本次竞赛需同时考虑视觉和音频模态。仅利用单模态信息,视频字幕提取的准确性较差。例如,音频对背景噪声和口音变化很敏感,方言或谐音词难以准确识别,如果加入视觉信息,上述问题是可以解决的;例如,从视觉模态提取出的字幕包含了大量其它文本(台标、广告、背景等),而音频信息可以辅助精确地定位字幕文本,因此融合音频和视觉模态对于字幕提取极为重要。

02 赛道设计

本次竞赛首次提出多模态字幕识别任务,设计了三个极具特色的赛道供各参赛队伍进行选择。

赛道一旨在使用含有音频字幕标注的数据,来训练视觉模态的字幕识别系统,赛道二旨在使用含有视觉模态字幕标注的数据,来训练音频字幕识别系统,赛道三旨在融合视觉和音频两个模态的信息来设计字幕识别系统。参赛队伍可根据每个赛道的特点,设计合适的字幕识别模型。

赛道一:只包含有音频提供的字幕信息,参赛者需设计一个字幕识别的OCR模型。参赛者们可以使用自知业界开源开放数据集对OCR模型进行预训练,然后通过音频模态提供的跨模态字幕信息训练模型。

赛道二:只包含有视觉模态提供的字幕信息。参赛者需设计一个字幕识别的ASR模型。与赛道一相同,参赛者可以使用指定开放数据集对ASR模型进行预训练,然后通过视觉模态提供的跨模态字幕信息训练模型。

赛道三:同时提供了音频模态和视觉模态标注的多模态字幕信息。参赛者可利用这两个模态的字幕信息设计一个字幕识别的模型。与赛道一,二相同,参赛允许使用公开数据集进行预训练,然后对模型进行微调。

03 评测方案

本次竞赛的评测指标为cer。为公平合理地评测三个赛道,我们为每个赛道设计了如下不同的评测方案。 赛道一:在评测时,首先遍历真实标注中的每一条字幕,并且与预测字幕信息计算tIOU(时间交并比), 匹配tIoU最大并且>=0.5的预测结果,计算cer。如果不存在,则该条字幕未被正确命中,该条字幕cer为1。同时,对于预测字幕, 若与某条真实字幕的tIoU>=0.5,视为误检cer = 1。最后,该视频所有字幕的cer的平均代表该输入视频的cer结果。 赛道二:参赛者需利用视觉模态提供的字幕标注和给定的音频数据,训练一个跨模态训练的字幕识别的ASR模型。参赛者应预测出包含在音频模态的字幕信息。通过计算预测字幕与真实标注字幕之间的cer来评测ASR模型。 赛道三:参赛者需要设计多模态字幕识别系统,预测给定视频中来自视觉或音频模态的字幕信息。通过计算预测字幕与真实标注字幕之间的cer来评测模型。

04 竞赛结果与排名

赛道一:排名及冠军方案

下面的表格列出了在赛道二上提交系统的Top5结果。网易、浙大、华科联合团队,好未来、Yidun AI Lab三个团队分获赛道一前三名。

赛道一旨在使用含有音频字幕标注的数据,来训练视觉模态的字幕识别系统。Jingquntang etal设置的方案中,模型主要分为三个部分:文字检测、文字识别以及字幕提取部分。由于字幕标注信息是跨模态的弱监督标注数据,因此文本识别模块难以训练。为了解决该问题,冠军方案使用构造数据的方式来解决该问题。首先,该方案使用文本检测模块检测视频帧中的文本并将文本进行抹除。接着,该方案将音频提供的字幕信息与抹除文字后的帧生成新的视频帧。 该方案使用大量的生成数据对文字识别模块进行有效训练。字幕提取模块通过对比前后帧的字幕内容、IoU信息、和文本框位置来提取字幕。

赛道二:排名及冠军方案

下面的表格列出了在赛道二上提交系统的Top5结果。网易、大搜车、Yidun AI Lab三个团队分获赛道二前三名。

赛道二旨在使用含有视觉模态字幕标注的数据,来训练音频字幕识别系统。nickyang etal队伍设置的方案中,同时训练了若干个ASR模型,并将所有模型的输出融合为最终结果。在数据预处理部分,对于含有字幕标注的训练集,方案通过构建解码图,并应用简单的卷积网络计算语句置信度,得到文本标注信息;对于不含字幕标注的训练集,方案使用微调的wav2vec2.0模型得到文本的语言特征,再使用预训练的语言模型和Kaldi解码器得到文本标注信息。然后,在模型训练部分,该方案分别使用了混合模型和端到端的Wenet模型共同训练,并通过循环往复的方式得到更优的训练集标注,进行更新迭代,从而得到了最优的文本识别结果。

赛道三:排名及冠军方案

下面的表格列出了在赛道三上提交系统的Top5结果。Yidun AI Lab、中科院自动化所、好未来三个团队分获赛道三前三名。

赛道三旨在融合视觉和音频两个模态的信息来设计字幕识别系统。相比于赛道一、二而言,赛道三的系统设计更加复杂。robindu etal队伍设置的方案中主要包含三个模块:视觉模态的字幕提取器,音频模态的字幕提取器,融合模块将两个模态结果进行融合。其中,前两个模块主要是基于OCR、ASR系统开发的。整体流程如上图所示。模型首先判断视频是否含有两个模态的字幕信息。若预测视频只包含单个模态的字幕信息,则字幕结果只取单模态的字幕信息。如果两个模态的字幕信息,则进一步使用融合模块来融合两个模态的结果。两个模态的字幕信息在时间上可能存在偏移,例如,在音频内某些谈话内容已经开始,而视觉字幕仍停留在讲话者的前一句内容。为了解决该问题,该方案设计了拆分模块,该模块将两个模态中相同和不同的字幕文本进行拆分。在两个相同的字幕文本部分,针对某条视觉字幕可能会在多个帧中存在。对于不同帧的背景干扰导致同一字幕的识别结果不同这一问题,融合模块中的过滤模块旨在挑选视觉字幕中OCR识别效果最好的,同时移除识别效果不好的。最后,将不同的部分和相同的部分字幕文本使用填充模块进行拼接。

05 致谢

本次竞赛依托于国际会议ICPR 2022,竞赛的注册和提交均在CodaLab网站上进行,参赛者可通过邮箱在网站上进行注册报名。同时在竞赛报名期间,感谢智东西、CSDN、量子位、Cver、InfoQ机器之心、36kr等多家媒体支持。

作为腾讯开源协同小组,腾讯ASR和OCR Oteam通过对内部优势技术的整合和开源,构造了贴合各类业界场景的完整、先进、鲁棒的模型库和算法框架。后续我们将会对业界开放基础算法框架,同时也寻求学术和工业界在该问题的先进算法和技术,携手共建更优的多模态字幕识别解决方案。

赛事组织者:

黄珊      腾讯科技 OCR Oteam

黄申      腾讯科技 ASR Oteam

卢鲤      腾讯科技 ASR Oteam

胡鹏飞  腾讯科技 ASR Oteam

汪翔      腾讯科技 OCR Oteam

康健      腾讯科技 ASR Oteam

金连文   华南理工大学

刘禹良   华中科技大学

武亚强   联想(北京)有限公司

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-06-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯技术工程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 赛道二:排名及冠军方案
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档