业界 | 谷歌新进展:用DNN模型为YouTube视频添加环境音效字幕

我们在感知外部世界的过程中,声音(audio)起到了极大的作用。在这里,我们把声音分解为两类,一类是语音(speech),另一类是环境音(sound)。人们会本能地对环境音做出反应,比如会被突如其来的骚动所惊吓,或被情景喜剧中的背景笑声所感染。

而影音网站界的翘楚——YouTube 也深知音频的重要性。自2009年起,他们就开始让视频自动生成字幕。如今,这一功能又有了升级版——AI科技评论了解到,谷歌于昨日(3月23日)宣布,将为YouTube视频中的自动字幕增加音效信息,使人们拥有更丰富的视听体验。

据AI科技评论了解,这也是YouTube第一个用机器学习为视频自动添加音效字幕的技术,由Accessibility、Sound Understanding和YouTube团队共同完成。

用于探测环境音的DNN模型

为了探测环境音,研究人员使用深度神经网络(DNN)模型来解决下面三个问题:

  1. 检测出用户想要的声音;
  2. 对该声音进行时间定位;
  3. 音频中可能也有识别出其他并行或独立的语音,将上述两步的声音结果整合其中。

研究人员在开发DNN模型时,遇到的第一个挑战是难以获得大量有标记的环境音信息。而他们的解决方法是,转向使用弱标记数据来生成足够多的数据集。不过,问题又来了:

  • 一个视频中有那么多种环境音,要选择哪种呢?

研究人员最后选择检测的三种环境音是“鼓掌”、“音乐”和“笑声”,因为在人们添加的字幕中,这三种被添加的次数最多,并且传达的语义信息也比较明确。

除了选定环境音,研究人员也做了许多检测环境音的工作,包括开发基础与分析框架,探测声音事件,以及将其整合进自动字幕中,这些工作可使以后在音频中整合其它类型的声音(比如“铃声”、 “犬叫声”)变得更加容易。

字幕密度检测

将视频传到YouTube上后,DNN会自动查看音频,并预测其是否包含人们感兴趣的声音事件(sound event)。由于多个音频可以同时出现,所以模型需要在每个时间段内对每个音频进行预测,直到预测完所有音频(如下图所示)。最后会得到一个密集流,即表示词表中的声音以100帧/s的频率出现。

同时,研究人员还使用了含有ON和OFF的改进维特比算法(Viterbi algorithm),让密集流预测变得更平滑。每个音效的预测断对应ON。

但是,这样的分类系统可能会导致模型无法区分同一时段内发生的不同事件。这就需要模型在信息误报(false positives )和信息丢失这两点中寻找平衡。具体做法是:

根据 ON 上的时间做进一步限制,从而将系统性能推至精确度召回曲线上的一个预期点。

用户体验反馈

研究人员还与用户体验研究团队展开合作,分析了在不同条件下,用户体验有何差异。条件设定如:

  • 分开显示语音字幕和音效字幕;
  • 兼有语音字幕和音效字幕时,让它们交叉呈现;
  • 仅在句子结束或语音出现停顿时,显示音效字幕;
  • 消音看视频,评价对字幕的感受如何。

除此之外,研究人员还重点关注了声音监测系统的错误反馈。事实证明,音效信息错误会并不会使用户体验降低,原因可能是以下两点:

  1. 能听到声音的用户,忽略了字幕中的错误;
  2. 听不到声音的用户,也能从错误的字幕信息中得知有声音事件发生,因而没有遗漏关键的语音信息。

研究人员最后表示,系统偶尔犯下小打小闹的错误影响不大,只要提供的信息大部分正确,还是会赢得用户的好评。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-03-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习算法工程师

快手类推荐系统实践

1. 什么是推荐系统 推荐系统是一种信息过滤系统,近年来非常流行,应用于各行各业。 比如大家耳熟能详的快手、头条、手机百度、淘宝、京东、应用宝...几乎各个平台...

5035
来自专栏AI科技评论

模仿大脑的结构制造AI地图,美国已经有大神在做了

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

2759
来自专栏CSDN技术头条

深度解密今日头条的个性化资讯推荐技术

资讯产品近几年持续火爆,赚足了人们的眼球。以今日头条披露的数据为例:日活跃用户超过一亿,单用户日均使用时长超过 76分钟,资讯类产品的火爆程度可见一斑。资讯类产...

4366
来自专栏新智元

谁说AI没想象力?DeepMind破解灾难性遗忘密码,让AI也有记忆

暑假结束回到学校时,你可能会觉得前一年学过的东西已经统统忘光了。但如果你像人工智能系统那样学习,你会真的忘光光——当你第一天在课堂上坐下来时,你的大脑会把这当作...

723
来自专栏新智元

【换脸AI升级版】面部表情、身体动作、视线方向都能实时迁移

1733
来自专栏华章科技

极度烧脑+惊人发现:4个颠覆你世界观的量子理论实验

导读:最近,“量子”这个词成了网红。科幻作家们用量子理论虚构一个神奇的世界;量子计算是最火热的前沿技术之一;量子纠缠也成了伪科学用来忽悠人的幌子……

851
来自专栏AI研习社

今日头条成功的核心技术秘诀是什么?

资讯产品近几年持续火爆,赚足了人们的眼球。以今日头条披露的数据为例:日活跃用户超过一亿,单用户日均使用时长超过 76分钟,资讯类产品的火爆程度可见一斑。资讯类产...

4704
来自专栏机器之心

业界 | 谷歌为YouTube添加新功能:利用机器学习自动生成音效字幕

选自Google blog 作者:Sourish Chaudhuri 机器之心编译 音频(audio)对于我们对世界的感知的影响的巨大自然不言而喻。语音(spe...

2954
来自专栏AI科技评论

开发 | Facebook 的“自然语言理解”如何让Messenger更懂人类?(6500字演讲全文)

AI科技评论按:Facebook的AML和FAIR团队合作进行自然语言处理对自然语言理解进行着合作研究。在2017年4月19日举办的F8开发者大会上,Faceb...

3609
来自专栏新智元

颠覆自动驾驶的AI相机来了!光速执行深度学习

如今,自动驾驶汽车和无人驾驶飞机背后的图像识别技术依赖于人工智能:计算机本质上学会了自己识别物体,比如识别狗、过马路的行人或停车的汽车。主要问题是,目前运行人工...

1252

扫码关注云+社区