前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于字幕你想知道的一切

关于字幕你想知道的一切

作者头像
用户1324186
发布2021-08-25 10:54:17
1.6K0
发布2021-08-25 10:54:17
举报
文章被收录于专栏:媒矿工厂

来源:Live Q&A: Everything You Want to Know About Captioning 主讲人:Bill McLaughlin, Matt Mello 来自 EEG 内容整理:钟宏成 本篇是来自字幕解决方案提供商 EEG 的一场在线 Q&A 活动,解答了许多关于字幕的问题。

Q: 什么是隐藏式字幕(closed captioning)? A: 术语“隐藏式”(closed captioning)和“开放式”(open captioning)字幕:开放式字幕显示在图片本身中,也称为“烧录”,习惯称作硬字幕。隐藏式字母通常是指电视频道被同步发送,但仅在观众要求显示字幕时才显示。我们经常在播放器中看到的 CC 按钮,指的就是 closed captioning。无论是隐藏式还是开放式字母,总需要在正确的时间获取字幕并将它们合并到视频中,以确保字幕在正确的时间出现。

Q: closed captions 和 subtitles 的区别是什么? A: 术语 subtitles 和 captions,subtitles 通常会指 open captions,但这也和地域有关,在英国使用 subtitles 指的就是 closed captions,术语 closed captions 特指北美隐藏式字幕标准。closed captions 的描述更加清晰。

Q: 直播字幕和预录制材料添加字幕有什么不同? A: 区别是直播字幕通常会有一定延迟,这个延迟通常是容易被注意到的。而预录制材料可以预先处理。

Q: 人工字幕员和自动化相比? A: 直播字幕生成有不同级别,比如基本层是免费的自动字幕生成,例如 youtube 的字幕生成,它的质量可能不是特别好;下一个层级是自动化的但更智能的解决方案,通过输入语境与一些专业词汇,生成的字幕会更加准确;再下一个层级是人工字幕员,有人在听,并且根据语境形成一些机器可能达不到的字幕。预算也是一个很大的影响因素,调度也是一个因素,人工字幕员需要预先知道会做什么工作,他们也需要做一些准备。

Q: 我想为我的视频添加字幕,该如何开始? A: 首先要确定视频的类型,是直播视频还是预录制视频?这个问题比较宽泛,也可以咨询一些解决方案。

Q: 字幕准确度经常被提到,如何测量? A: 人们非常希望提升字幕准确度,特别是在对比自动化字幕方案与人工字幕员的时候。常规方法会将视频分成两类,预录制的或实时的,在预录制场景下,目标一般是 100% 的字幕准确度,因为能获取准确的时间轴、可以重复听多次、如果有理解上的困难,可以查询参考材料,不像实时视频的时候,只有一次机会,所以实时的标准会相对低一些。常用的标准是 NER 得分,是一个比较复杂的指标,不仅统计字词的准确度,还会考虑词语对理解的重要性,或者如果错误的误导性会有多强。准确性很重要,但还有其他的影响因素,比如字幕生成的延迟。

Q: 为流媒体和IP生成隐藏式字幕有什么不同吗? A: IP视频一般意味着演播室、工作室的专业视频,用 MPEG-TS 或者是 SMPTE 2110,这意味着专业视频管线。流媒体则一般是企业化的、教育类、以及一些个人创作的视频。一般两类视频会使用不同的工具管线,前者是更固定的广播类工作室,需要一些设备安装;后者更便宜,不需要安装相应的设备,可以直接使用服务。

Q: 608 和 708 是什么? A: 是两个隐藏式字幕标准,EIA-608 是在 SD 时代的标准,当进入数字广播和 HD 时代后,标准演进到 EIA-708。人们对这些标签比较困惑的一个原因是一些产品支持 708 标准,但一些平台声称支持 608 输入,二者是一回事吗?708 标准封装的数据中可以有数据包包含 608 标准的数据,很多播放器和平台只能读取 608 的输入,不读取 708 的数据。708 标准对广播场景的特性在流媒体世界中不是很重要。

Q: 多语种的会议有什么字幕方案推荐? A: 多语种来回切换的类型会非常难处理,现有的解决方案一般都是预设语言的,Google Meeting 虽然声称可以自动检测语言,但也不能支持多语种的切换。这个场景下,能支持多语种实施翻译的人工字幕员往往既难找又价格昂贵。

Q: 2020年的一项研究发现 AI 对白人和黑人的翻译准确度的不公平性。整体上,AI错判 35% 的黑人讲话,但是白人只有 19%。AI 工业界可以做哪些事来维系对所有讲话者的翻译公平性? A: 如果你看这些数据,这里说翻译白人讲话有 19% 的错误率,这意味着只有 80% 的正确性,这意味着对于你付钱的专业字幕产品,这是完全不可接受的性能。我见过一些这样的研究,这绝对是一个有意思的,有很多暗示意味的课题,我认为这些暗指可能与面向消费者的技术更相关,每个人都使用这些技术来做比如转录语音邮件、在手机上用 siri。这类使用范围很广的技术需要支持非常多的口音、使用模式、声音环境等。对于字幕产品,往往面向受控的环境,例如电视直播、演讲,并且目标准确性是远高于问题中的数字。所以我认为这是模型的预训练问题,预训练应该和产品的使用场景相匹配。

附上演讲视频:

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-08-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 媒矿工厂 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档