业界 | 谷歌新进展:用DNN模型为YouTube视频添加环境音效字幕

我们在感知外部世界的过程中,声音(audio)起到了极大的作用。在这里,我们把声音分解为两类,一类是语音(speech),另一类是环境音(sound)。人们会本能地对环境音做出反应,比如会被突如其来的骚动所惊吓,或被情景喜剧中的背景笑声所感染。

而影音网站界的翘楚——YouTube 也深知音频的重要性。自2009年起,他们就开始让视频自动生成字幕。如今,这一功能又有了升级版——AI科技评论了解到,谷歌于昨日(3月23日)宣布,将为YouTube视频中的自动字幕增加音效信息,使人们拥有更丰富的视听体验。

据AI科技评论了解,这也是YouTube第一个用机器学习为视频自动添加音效字幕的技术,由Accessibility、Sound Understanding和YouTube团队共同完成。

用于探测环境音的DNN模型

为了探测环境音,研究人员使用深度神经网络(DNN)模型来解决下面三个问题:

  1. 检测出用户想要的声音;
  2. 对该声音进行时间定位;
  3. 音频中可能也有识别出其他并行或独立的语音,将上述两步的声音结果整合其中。

研究人员在开发DNN模型时,遇到的第一个挑战是难以获得大量有标记的环境音信息。而他们的解决方法是,转向使用弱标记数据来生成足够多的数据集。不过,问题又来了:

  • 一个视频中有那么多种环境音,要选择哪种呢?

研究人员最后选择检测的三种环境音是“鼓掌”、“音乐”和“笑声”,因为在人们添加的字幕中,这三种被添加的次数最多,并且传达的语义信息也比较明确。

除了选定环境音,研究人员也做了许多检测环境音的工作,包括开发基础与分析框架,探测声音事件,以及将其整合进自动字幕中,这些工作可使以后在音频中整合其它类型的声音(比如“铃声”、 “犬叫声”)变得更加容易。

字幕密度检测

将视频传到YouTube上后,DNN会自动查看音频,并预测其是否包含人们感兴趣的声音事件(sound event)。由于多个音频可以同时出现,所以模型需要在每个时间段内对每个音频进行预测,直到预测完所有音频(如下图所示)。最后会得到一个密集流,即表示词表中的声音以100帧/s的频率出现。

同时,研究人员还使用了含有ON和OFF的改进维特比算法(Viterbi algorithm),让密集流预测变得更平滑。每个音效的预测断对应ON。

但是,这样的分类系统可能会导致模型无法区分同一时段内发生的不同事件。这就需要模型在信息误报(false positives )和信息丢失这两点中寻找平衡。具体做法是:

根据 ON 上的时间做进一步限制,从而将系统性能推至精确度召回曲线上的一个预期点。

用户体验反馈

研究人员还与用户体验研究团队展开合作,分析了在不同条件下,用户体验有何差异。条件设定如:

  • 分开显示语音字幕和音效字幕;
  • 兼有语音字幕和音效字幕时,让它们交叉呈现;
  • 仅在句子结束或语音出现停顿时,显示音效字幕;
  • 消音看视频,评价对字幕的感受如何。

除此之外,研究人员还重点关注了声音监测系统的错误反馈。事实证明,音效信息错误会并不会使用户体验降低,原因可能是以下两点:

  1. 能听到声音的用户,忽略了字幕中的错误;
  2. 听不到声音的用户,也能从错误的字幕信息中得知有声音事件发生,因而没有遗漏关键的语音信息。

研究人员最后表示,系统偶尔犯下小打小闹的错误影响不大,只要提供的信息大部分正确,还是会赢得用户的好评。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-03-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏顶级程序员

王咏刚:为什么 AI 工程师都要懂些架构?

作者简介 王咏刚 Google软件工程师 著名技术撰稿人和IT演说家 创新工场AI工程院副院长 AI 时代,我们总说做科研的 AI 科学家、研究员、算法工程师...

2876
来自专栏顾宇的研习笔记

为什么“时间管理四象限”没有用处?

这个图是把当前工作按照紧急程度和重要程度进行分类,以便更好的安排工作时间做最有意义的事情。

611
来自专栏媒矿工厂

Facebook VR方案总结(一)

VR虚拟现实是一种通过创建虚拟世界,使用户沉浸其中的技术,其萌芽于上世纪60年代。但VR第一次走进大家的视野,或许要归功于Facebook。2014年Faceb...

3468
来自专栏AI科技评论

动态 | 谷歌开源FHIR标准协议缓冲工具,利用机器学习预测医疗事件

AI科技评论按:在上月 26 日,谷歌在 arXiv 上发表的一篇论文《Scalable and accurate deep learning for elec...

2796
来自专栏西安软件开发

计算机软件著作权保护的原则及司法侵权鉴定标准

计算机的工作离不开软件的控制指挥。软件具有开发工作量大、开发投资高,而复制容易、复制费用极低的特点。计算机软件作为作品形式之一,根据国家颁布的软件著作权法规所获...

1134
来自专栏新智元

微软首席研究员童欣:深度学习将席卷计算机图形,VR/AR爆发临近

【新智元导读】微软亚洲研究院网络图形组培养了一大批中国图形学的人才。其首席研究员童欣,内部人称“童姥”,近日接受了新智元专访。在微软做了近20年图形的他认为,计...

36811
来自专栏AI科技评论

动态 | MIT CSAIL最新研究:将AI应用于流媒体视频,可获得更好的播放体验

AI科技评论按:在网上看视频时,缓冲或色块问题时有发生,极其影响观看体验。现在,MIT计算机科学与人工智能实验室(CSAIL)利用神经网络算法,最大化地缓解了这...

3498
来自专栏FreeBuf

走近科学:隐藏在图像数据库中的安全问题

本文原刊登于IEEE IT Professional杂志。 由于系统改造的代价之高,使用适于系统设计的网络安全措施则是最好的选择。而新科技和应用则带来更多安全与...

19110
来自专栏新智元

AI 战略剑指GPU,英特尔Nervana 平台将推首款深度学习芯片

【新智元导读】2016年11月17日,英特尔终于对外公布了自己的人工智能战略布局:英特尔® Nervana™ 平台成为重点,此外,英特尔还会在明年推出首款深度学...

3426
来自专栏web前端教室

前端知识学了却不会用,都是没走心

我发现,许多人在学习前端的时候,更多的时候是处于一种“对外宣称正在学习中”的状态。而他本人真正的学习了多少前端知识?未必。 我之前就多次说过,“学习前端开发不是...

1766

扫码关注云+社区