前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >学界 |「眼」来助听:谷歌视觉-音频分离模型解决「鸡尾酒会效应」

学界 |「眼」来助听:谷歌视觉-音频分离模型解决「鸡尾酒会效应」

作者头像
AI科技评论
发布2018-04-18 17:39:21
1.4K0
发布2018-04-18 17:39:21
举报

Google Research 软件工程师发表了可解决「鸡尾酒会效应」视觉-音频语音识别分离模型。

AI 科技评论按:人类很擅长在嘈杂的环境下将其他非重点的声响「静音」化,从而将注意力集中在某个特定人物身上。这也就是众所周知的「鸡尾酒会效应」,这种能力是人类与生俱来的。尽管对自动音频分离(将音频信号分离成单独的语音源)的研究已经相当深入,但它依旧是计算机研究领域上的一项巨大挑战。

Google Research 软件工程师 Inbar Mosseri 和 Oran Lang 于 4 月 11 日发表了一篇关于视觉-音频语音识别分离模型最新研究成果的博文,AI 科技评论编译整理如下。

在解决了「鸡尾酒会效应」的《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》论文中,谷歌团队提供了一个深度视觉-音频学习模型,来从其发声者音频和背景噪音的混合音频场景中,为特定的发声对象分离出一个匹配的单一音频信号。在这次操作中,谷歌已经能够通过增强特定人物对象的音频,抑制其他非重点音频来计算生成针对特定发声对象的单一音轨视频了。该方法适用于具有单一(主)音轨的常见视频,用户也可以自行选择倾听对象来生成对其的单一音轨,或者基于语境由算法进行对特定发声对象进行选择。谷歌相信这种视觉-音频语音识别分离技术拥有广泛的应用场景,识别视频中的特定对象将其音频增强,特别是在多人视频会议的场景中对特定发言人进行针对性音频增强。

视频内容

这项技术的独特之处在于,其通过结合分析输入视频的音、视频信号来识别分离所需的单一音轨。直观来说,例如特定人物对象的音频与其发声时的嘴部动作相关联的,这也就帮助模型系统区分哪一部分音频(轨)对应着哪一个特定对象。对视频中的视觉信号进行分析,不仅能够在多种音频混合的场景下显著提升语音识别分离质量(相较于只借助音频来进行特定对象语音分离),同时,更加重要一点还在于,它还能将分离后的纯净单一音轨与视频中的可视对象联系起来。

在本文的视觉-音频语音分离识别方法中,输入是一名或多名发声对象,同时被其他对象或嘈杂背景所干扰的视频。输出是将前面输入的视频音轨分解成纯净的音轨,并对应到特定的发声对象身上。

视觉-音频语音识别分离模型

为了生成视觉-音频语音分离模型训练样本,谷歌收集了 Youtube 上高达 10 万份高质量学术以及演讲视频。团队从中提取了音频纯净的一些片段(例如无背景音乐,听众噪音以及其他发声者音频干扰),这些视频片段中仅有一位可见的发声对象。谷歌花费了约 2000 个小时从中剪辑出,无背景噪音干扰,同时只有单一可见发声对象的视频数据,团队运用这份纯净的数据来生成「合成鸡尾酒会效应(synthetic cocktail parties)」—将来自分离视频源的脸部动作视频和对应的音频,以及从 AudioSet 获取的无背景噪音的视频混合在一起。

利用这些视频数据,我们能够训练一个多流卷积神经网络模型,为「合成鸡尾酒会场景混合体」片段中每个发声对象分离出对应音频流(音轨)。输入到视觉-音频网络识别系统中的数据具体是指,视频每一帧中被检测到的发声对象的脸部动作缩略图中提取的视觉特征,以及视频音轨的频谱图信息。在模型的训练过程中,网络系统学习分别学习视觉和音频信号的编码,然后将它们融合成一个音频-视觉表现。通过音频-视觉表现,网络系统学会了为每位发声对象对应输出时频掩码。输出的时频掩码与噪声输入频谱图相乘,随后转换成时域波形,从而为每一位发声对象生成单独的,纯净的音频信号。更多详细内容,可以点击参考谷歌团队的论文《Looking to Listen at the Cocktail Party: A Speaker-Independent Audio-Visual Model for Speech Separation》进行查看。

谷歌多串流,基于神经网络的模型架构

下面是几个谷歌团队通过最新视觉-音频语音分离技术实现的音频分离和增强的处理结果视频示例,视频中除所需的特定发声对象外,其他对象(背景)声音均被「静音」化已达到所需效果。

视频示例(截图)
视频示例(截图)
视频示例(截图)

为了强调模型对视觉信息的利用,谷歌从 Google CEO Sundar Pichai 的同一视频片段中截取了两段截然不同的片段,并将它们进行并排演示。在这个场景下,仅使用音频中的特征语音频率是很难实现音频分离的,尽管在如此具有挑战性的案例中,这一音-视觉模型依然能正确地分离视频中的音频。

视频内容

视觉-音频语音识别分离技术的相关应用

本文的该方法也可应用于语音识别和视频自动字幕加载。对于视频自动字幕加载系统而言,多名发生者同时发声导致的语音重叠现象是一项已知的挑战,与此同时,将音频分离至不同的源也有助于呈现更加准确和易读的字幕。

同时你也可以前往 YouTube 观看本文中的同款视频并打开字幕加载(cc 功能键),即可比较运用了视觉-音频语音识别分离技术的视频字幕识别和 YouTube 原本视频字幕加载系统表现的差异。

视频示例(截图)

读者还可以在谷歌视觉-音频语音识别分离项目 GitHub 相关页面查看更多的应用场景,同时谷歌的视觉-音频语音识别分离技术与纯音频识别分离的视频结果示例对比,以及其他视觉-音频语音识别分离技术上最新进展。在谷歌团队看来,该技术将拥有更加广泛的应用,团队也在探索将其整合进谷歌的其他产品中,所以敬请期待吧!

另外,AI 科技评论于 4 月初也编译过 Microsoft AI and Research 研究员的一篇利用多束深度吸引子网络解决鸡尾酒派对问题的论文,详细内容可查看《微软研究员提出多束深度吸引子网络,解决语音识别「鸡尾酒会问题」》。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AI科技评论 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 在本文的视觉-音频语音分离识别方法中,输入是一名或多名发声对象,同时被其他对象或嘈杂背景所干扰的视频。输出是将前面输入的视频音轨分解成纯净的音轨,并对应到特定的发声对象身上。
  • 谷歌多串流,基于神经网络的模型架构
  • 视频示例(截图)
  • 视频示例(截图)
  • 视频示例(截图)
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档