前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >十万奖金等你来拿!腾讯ASR&OCR Oteam联合多家校企举办多模态字幕识别比赛!

十万奖金等你来拿!腾讯ASR&OCR Oteam联合多家校企举办多模态字幕识别比赛!

作者头像
腾讯大讲堂
发布2022-03-24 16:10:20
5890
发布2022-03-24 16:10:20
举报

参赛通知

一、    赛事背景

视频通过视觉和音频等传递丰富的信息。视频理解一直是学术界和工业界的热门研究课题。融合多模态信息也是一个具有挑战性和有意义的研究课题。在本次竞赛当中,我们专注于从视频中提取字幕。

字幕是文字来源于访谈节目或电视剧等类的视频。字幕是视频数据中最重要的文本信息之一,因为字幕包含人们交谈内容的信息。字幕识别广泛用于推荐、检索和视频理解系统。为了更好的促进字幕识别的发展,我们在ICPR 2022上举办多模态字幕识别竞赛,欢迎大家报名参赛。

二、 赛事流程

1. 注册报名:2022.03.07 – 2022.05.07

2. 训练集公布:2022.03.12

3. 开发阶段:2022.03.12 – 2022.04.22

4. 评测阶段:2022.04.22 – 2022.05.07

5. 验证集公布:2022.04.22

6. 结果提交截止:2022.05.07

7. 方法描述截止:2022.05.12

8. 评测结果公布:2022.05.13

三、 注册和提交方式

本次比赛的注册和提交均在CodaLab网站上进行,具体注册和提交细节请参考竞赛网站(https://icprmsr.github.io/ )。

四、 比赛内容

本次比赛分为三个赛道分别为:

1.  使用音频模态标注的字幕信息在视觉模态中提取字幕

在这个任务中,只有音频提供的字幕信息。参赛者需设计一个字幕识别的OCR模型。参赛者可以使用自知业界开源开放数据集对OCR模型进行预训练,然后通过音频模态提供的字幕信息微调模型。提交的结果将在视觉模态的测试集上使用CER指标的结果进行排名。

2.  使用视觉模态标注的字幕信息在音频模态中提取字幕

在这个任务中,只有视觉模态提供的字幕信息。参赛者需设计一个字幕识别的ASR模型。与任务一相同,参赛者可以使用指定开放数据集对ASR模型进行预训练,然后通过视觉模态提供的字幕信息微调模型。提交的结果将在音频模态的测试集上使用CER指标的结果进行排名。

3.  使用视觉模态和音频模态标注的字幕信息提取视频中的字幕

在这个任务中,我们将提供音频模态和视觉模态标注的字幕信息。参赛者需利用这个两个模态的字幕信息设计一个字幕识别的模型。与任务一,二相同,参赛允许使用公开数据集进行预训练,然后对模型进行微调。提交结果将在同时具备视觉和音频模态的测试集上使用CER指标的结果进行排名。

五、奖励方式

每个赛道最终排名前三的队伍都会获得现金奖励。(奖励方案详见官网)

六、组织方

主办方:腾讯科技有限公司(TencentOCR &ASR Oteam)、华南理工大学、华中科技大学、联想(北京)有限公司

数据支持方:数据堂

七、联系方式

比赛网站:https://icprmsr.github.io/

联系邮箱:lattehuang@tencent.com

竞赛交流群

扫码进群 | 获取最新消息

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-03-23,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯大讲堂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文字识别
文字识别(Optical Character Recognition,OCR)基于腾讯优图实验室的深度学习技术,将图片上的文字内容,智能识别成为可编辑的文本。OCR 支持身份证、名片等卡证类和票据类的印刷体识别,也支持运单等手写体识别,支持提供定制化服务,可以有效地代替人工录入信息。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档