业界 | 谷歌新进展:用DNN模型为YouTube视频添加环境音效字幕

我们在感知外部世界的过程中,声音(audio)起到了极大的作用。在这里,我们把声音分解为两类,一类是语音(speech),另一类是环境音(sound)。人们会本能地对环境音做出反应,比如会被突如其来的骚动所惊吓,或被情景喜剧中的背景笑声所感染。

而影音网站界的翘楚——YouTube 也深知音频的重要性。自2009年起,他们就开始让视频自动生成字幕。如今,这一功能又有了升级版——AI科技评论了解到,谷歌于昨日(3月23日)宣布,将为YouTube视频中的自动字幕增加音效信息,使人们拥有更丰富的视听体验。

据AI科技评论了解,这也是YouTube第一个用机器学习为视频自动添加音效字幕的技术,由Accessibility、Sound Understanding和YouTube团队共同完成。

用于探测环境音的DNN模型

为了探测环境音,研究人员使用深度神经网络(DNN)模型来解决下面三个问题:

  1. 检测出用户想要的声音;
  2. 对该声音进行时间定位;
  3. 音频中可能也有识别出其他并行或独立的语音,将上述两步的声音结果整合其中。

研究人员在开发DNN模型时,遇到的第一个挑战是难以获得大量有标记的环境音信息。而他们的解决方法是,转向使用弱标记数据来生成足够多的数据集。不过,问题又来了:

  • 一个视频中有那么多种环境音,要选择哪种呢?

研究人员最后选择检测的三种环境音是“鼓掌”、“音乐”和“笑声”,因为在人们添加的字幕中,这三种被添加的次数最多,并且传达的语义信息也比较明确。

除了选定环境音,研究人员也做了许多检测环境音的工作,包括开发基础与分析框架,探测声音事件,以及将其整合进自动字幕中,这些工作可使以后在音频中整合其它类型的声音(比如“铃声”、 “犬叫声”)变得更加容易。

字幕密度检测

将视频传到YouTube上后,DNN会自动查看音频,并预测其是否包含人们感兴趣的声音事件(sound event)。由于多个音频可以同时出现,所以模型需要在每个时间段内对每个音频进行预测,直到预测完所有音频(如下图所示)。最后会得到一个密集流,即表示词表中的声音以100帧/s的频率出现。

同时,研究人员还使用了含有ON和OFF的改进维特比算法(Viterbi algorithm),让密集流预测变得更平滑。每个音效的预测断对应ON。

但是,这样的分类系统可能会导致模型无法区分同一时段内发生的不同事件。这就需要模型在信息误报(false positives )和信息丢失这两点中寻找平衡。具体做法是:

根据 ON 上的时间做进一步限制,从而将系统性能推至精确度召回曲线上的一个预期点。

用户体验反馈

研究人员还与用户体验研究团队展开合作,分析了在不同条件下,用户体验有何差异。条件设定如:

  • 分开显示语音字幕和音效字幕;
  • 兼有语音字幕和音效字幕时,让它们交叉呈现;
  • 仅在句子结束或语音出现停顿时,显示音效字幕;
  • 消音看视频,评价对字幕的感受如何。

除此之外,研究人员还重点关注了声音监测系统的错误反馈。事实证明,音效信息错误会并不会使用户体验降低,原因可能是以下两点:

  1. 能听到声音的用户,忽略了字幕中的错误;
  2. 听不到声音的用户,也能从错误的字幕信息中得知有声音事件发生,因而没有遗漏关键的语音信息。

研究人员最后表示,系统偶尔犯下小打小闹的错误影响不大,只要提供的信息大部分正确,还是会赢得用户的好评。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-03-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

业界 | 谷歌为YouTube添加新功能:利用机器学习自动生成音效字幕

选自Google blog 作者:Sourish Chaudhuri 机器之心编译 音频(audio)对于我们对世界的感知的影响的巨大自然不言而喻。语音(spe...

2474
来自专栏企鹅号快讯

2017年度盘点:15个最流行的GitHub机器学习项目

在本文中,作者列出了 2017 年 GitHub 平台上最为热门的知识库,囊括了数据科学、机器学习、深度学习中的各种项目,希望能对大家学习、使用有所帮助。另,小...

2096
来自专栏IT派

推荐|DeepLearningBook读书笔记

作为人工智能领域目前的最大研究热点,同时也是近年来为各种智能任务带来最大突破的技术方向 – 深度学习或者说神经网络正吸引着无数研究人员的眼球。事实上,传统的神经...

3425
来自专栏大数据文摘

前沿 | MIT自动驾驶技术突破:实现浓雾中物体观测和测距,超人类水平

1086
来自专栏应用案例

2017年度盘点:15个最流行的GitHub机器学习项目

作者:Sunil Ray 在本文中,作者列出了 2017 年 GitHub 平台上最为热门的知识库,囊括了数据科学、机器学习、深度学习中的各种项目,希望能对大家...

1848
来自专栏AI研习社

Facebook 开源 FAISS;MIT 开发机器学习数据合成系统 SDV | 开发者头条

更高效的聚类、相似性搜索算法库,Facebook 开源 FAISS MIT 黑科技,合成数据也能用于机器学习 机器学习算法成功预测人造地震 每日推荐阅读 Vi...

3144
来自专栏新智元

谷歌 Allo 新功能:神经网络自动生成自拍卡通头像

【新智元导读】 谷歌研究院的官方博客最新介绍了一种基于神经网络的自拍卡通头像生成技术,可直接在谷歌的应用程序Allo上使用,目前只支持安卓。 自拍、欣赏自拍和...

3278
来自专栏PPV课数据科学社区

R 家族又添新丁,5个数据科学专用包,怀着探索的心态来使用吧

李垠序编译 出处:雪晴数据网 R生态体系有其非常之美,在于它的新包贡献系统,而这也可能是R使用者显著增加的根本原因。这一特点与坚如磐石的基础包版本库(CRAN...

33610
来自专栏刘笑江的专栏

AI 精彩视频剪辑:战术竞技类游戏直播

1554
来自专栏大数据挖掘DT机器学习

从小白到年薪10万+,优秀的数据分析能力如何速成?

广泛被应用的数据分析 谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网...

3396

扫描关注云+社区