学界 |「眼」来助听:谷歌视觉-音频分离模型解决「鸡尾酒会效应」

Google Research 软件工程师发表了可解决「鸡尾酒会效应」视觉-音频语音识别分离模型。

AI 科技评论按:人类很擅长在嘈杂的环境下将其他非重点的声响「静音」化,从而将注意力集中在某个特定人物身上。这也就是众所周知的「鸡尾酒会效应」,这种能力是人类与生俱来的。尽管对自动音频分离(将音频信号分离成单独的语音源)的研究已经相当深入,但它依旧是计算机研究领域上的一项巨大挑战。

Google Research 软件工程师 Inbar Mosseri 和 Oran Lang 于 4 月 11 日发表了一篇关于视觉-音频语音识别分离模型最新研究成果的博文,AI 科技评论编译整理如下。

在解决了「鸡尾酒会效应」的《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》论文中,谷歌团队提供了一个深度视觉-音频学习模型,来从其发声者音频和背景噪音的混合音频场景中,为特定的发声对象分离出一个匹配的单一音频信号。在这次操作中,谷歌已经能够通过增强特定人物对象的音频,抑制其他非重点音频来计算生成针对特定发声对象的单一音轨视频了。该方法适用于具有单一(主)音轨的常见视频,用户也可以自行选择倾听对象来生成对其的单一音轨,或者基于语境由算法进行对特定发声对象进行选择。谷歌相信这种视觉-音频语音识别分离技术拥有广泛的应用场景,识别视频中的特定对象将其音频增强,特别是在多人视频会议的场景中对特定发言人进行针对性音频增强。

视频内容

这项技术的独特之处在于,其通过结合分析输入视频的音、视频信号来识别分离所需的单一音轨。直观来说,例如特定人物对象的音频与其发声时的嘴部动作相关联的,这也就帮助模型系统区分哪一部分音频(轨)对应着哪一个特定对象。对视频中的视觉信号进行分析,不仅能够在多种音频混合的场景下显著提升语音识别分离质量(相较于只借助音频来进行特定对象语音分离),同时,更加重要一点还在于,它还能将分离后的纯净单一音轨与视频中的可视对象联系起来。

在本文的视觉-音频语音分离识别方法中,输入是一名或多名发声对象,同时被其他对象或嘈杂背景所干扰的视频。输出是将前面输入的视频音轨分解成纯净的音轨,并对应到特定的发声对象身上。

视觉-音频语音识别分离模型

为了生成视觉-音频语音分离模型训练样本,谷歌收集了 Youtube 上高达 10 万份高质量学术以及演讲视频。团队从中提取了音频纯净的一些片段(例如无背景音乐,听众噪音以及其他发声者音频干扰),这些视频片段中仅有一位可见的发声对象。谷歌花费了约 2000 个小时从中剪辑出,无背景噪音干扰,同时只有单一可见发声对象的视频数据,团队运用这份纯净的数据来生成「合成鸡尾酒会效应(synthetic cocktail parties)」—将来自分离视频源的脸部动作视频和对应的音频,以及从 AudioSet 获取的无背景噪音的视频混合在一起。

利用这些视频数据,我们能够训练一个多流卷积神经网络模型,为「合成鸡尾酒会场景混合体」片段中每个发声对象分离出对应音频流(音轨)。输入到视觉-音频网络识别系统中的数据具体是指,视频每一帧中被检测到的发声对象的脸部动作缩略图中提取的视觉特征,以及视频音轨的频谱图信息。在模型的训练过程中,网络系统学习分别学习视觉和音频信号的编码,然后将它们融合成一个音频-视觉表现。通过音频-视觉表现,网络系统学会了为每位发声对象对应输出时频掩码。输出的时频掩码与噪声输入频谱图相乘,随后转换成时域波形,从而为每一位发声对象生成单独的,纯净的音频信号。更多详细内容,可以点击参考谷歌团队的论文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》进行查看。

谷歌多串流,基于神经网络的模型架构

下面是几个谷歌团队通过最新视觉-音频语音分离技术实现的音频分离和增强的处理结果视频示例,视频中除所需的特定发声对象外,其他对象(背景)声音均被「静音」化已达到所需效果。

视频示例(截图)
视频示例(截图)
视频示例(截图)

为了强调模型对视觉信息的利用,谷歌从 Google CEO Sundar Pichai 的同一视频片段中截取了两段截然不同的片段,并将它们进行并排演示。在这个场景下,仅使用音频中的特征语音频率是很难实现音频分离的,尽管在如此具有挑战性的案例中,这一音-视觉模型依然能正确地分离视频中的音频。

视频内容

视觉-音频语音识别分离技术的相关应用

本文的该方法也可应用于语音识别和视频自动字幕加载。对于视频自动字幕加载系统而言,多名发生者同时发声导致的语音重叠现象是一项已知的挑战,与此同时,将音频分离至不同的源也有助于呈现更加准确和易读的字幕。

同时你也可以前往 YouTube 观看本文中的同款视频并打开字幕加载(cc 功能键),即可比较运用了视觉-音频语音识别分离技术的视频字幕识别和 YouTube 原本视频字幕加载系统表现的差异。

视频示例(截图)

读者还可以在谷歌视觉-音频语音识别分离项目 GitHub 相关页面查看更多的应用场景,同时谷歌的视觉-音频语音识别分离技术与纯音频识别分离的视频结果示例对比,以及其他视觉-音频语音识别分离技术上最新进展。在谷歌团队看来,该技术将拥有更加广泛的应用,团队也在探索将其整合进谷歌的其他产品中,所以敬请期待吧!

另外,AI 科技评论于 4 月初也编译过 Microsoft AI and Research 研究员的一篇利用多束深度吸引子网络解决鸡尾酒派对问题的论文,详细内容可查看《微软研究员提出多束深度吸引子网络,解决语音识别「鸡尾酒会问题」》。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-04-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

为何机器学习识别声音还做不到像识别图片那么容易?

2894
来自专栏PPV课数据科学社区

案例分享|美团如何用NLP完成5大应用场景

针对NLP技术,大神们刚刚展开过比较激烈的讨论——Yann Lecun论战Yova Goldberg,导火索是是一篇“对抗式生成自然语言的论文”。 NLP大神Y...

5369
来自专栏人工智能头条

“吴恩达deeplearningai”微信公众号上线,将发布《机器学习训练秘籍》

2284
来自专栏机器之心

从GPU、TPU到FPGA及其它:一文读懂神经网络硬件平台战局

4624
来自专栏AI科技评论

开发 | 入门深度学习,读对书很重要

AI科技评论按:本文作者为 Jeffries Consulting 创始人 Daniel Jeffries,他以自己的阅读体验,对当前含金量极高的几本深度学习书...

36411
来自专栏机器之心

业界 | 首次理论证明:Science论文提出超越经典计算的量子算法

论文:Quantum advantage with shallow circuits

1181
来自专栏新智元

Ian Goodfellow:我最大的失败是用无监督解决计算机视觉的监督学习问题

1834
来自专栏算法+

学习图像算法阶段性总结 (附一键修图Demo) 2016.04.19更新demo

今天特别感慨,自己从决定研究图像处理,势必要做出一键修图算法。 经历了,三个多月的书籍积累,三个多月的算法调整以及优化。 人是一种奇怪的动物,当你做不到的时候,...

3075
来自专栏新智元

10月AI热文:强化学习、定制合成人脸、道德机器等

谷歌正试图通过新的Active Question Answering(Active QA)智能体来模仿这一点,这是一个使用强化学习来训练AI进行问答的系统。当你...

1292
来自专栏CDA数据分析师

大数据的新算法:简化数据分类!

如今,大数据时代悄然来临。专家用“大数据”的表达描述大量信息,比如数十亿人在计算机、智能手机以及其他电子设备上分享的照片、音频、文本等数据。当前这种模式为我们的...

2287

扫码关注云+社区

领取腾讯云代金券