前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >不戴眼镜听不清?Google用视觉信号分离语音 | 附论文

不戴眼镜听不清?Google用视觉信号分离语音 | 附论文

作者头像
量子位
发布2018-07-24 14:28:10
3480
发布2018-07-24 14:28:10
举报
文章被收录于专栏:量子位
雾中之栗 发自 凹非寺 量子位 出品 | 公众号 QbitAI

精神的力量

人类非常善于在嘈杂的环境中,集中注意力听某一个人说的话,从精神上“屏蔽”一切其他声音。这种现象便是“鸡尾酒会效应”,我们与生俱来。

不过,对于计算机来说,要把一个音频信号分割成多个不同的语音来源,依然有些棘手的问题需要解决。当许多人的语音交叠在一起的时候,AI时常措手不及。

谷歌团队建立了一个深度学习视听模型,用来把某个人的语音从一段混合声音里面提取出来。算法对视频做一些奇妙的改动,就可以让观众需要的声音变得格外显著,其他声音则被削弱。

不戴眼镜,AI也一样

这项技术的独到之处,就是把听觉和视觉信号结合起来用,而不单单靠声波来分离视频中的语音。直观来看,以嘴上的动作为例,人的口型和语音相互对应。这一点会帮助AI判断,哪些声音是哪个人发出的。

视听语音分离模型

要生成训练样例,团队先搜集了100,000条高清视频,全部是油管上的讲座和演讲。第二步,是把语音单纯 (比如,无音乐、无观众、无其他演讲者) 、且图像中只有一人出现的视频筛选出来。这样,就得到了大约2,000小时纯纯无杂质的视频。

有了这些数据,小伙伴们就开始对一个基于多流卷积神经网络 (CNN) 的模型进行训练。人工合成一些嘈杂的“鸡尾酒会”给AI欣赏,目标是让它在酒会里,把每个人的音频流分离开来。

感觉有人,在背后截我图

视频里,演讲者的大头贴被一帧一帧地截下,计算机用它们的缩略图来提取面部特征。然神经网络食量非凡,它要吃的不止这些面部特征。加上频谱图形式呈现的音轨,才是神经网络美好的晚餐。

在训练过程中,AI学会了编码视觉和听觉信号,并且能够把它们组合成一种特殊的视听表现形式。在此基础上,AI还要为每个演讲者输出一个时频掩膜 (time-frequency mask) 。

把这些掩膜与输入的噪音频谱相乘,再转换回时域波形 (time-domain waveform) ,就能获得每个演讲者独立又清澈的语音信号了。

训练成果秀

团队用单音轨的普通视频来做实验。观众要做的很简单,想要听到哪个人的声音,就把他/她的脸从视频里选出来,当然让计算机根据场景自动选择也是可以的。

安能辨我是雄雌

除了被选中的人,其他人的声音都可以被完全压制,或者被削弱到理想的程度

在多人发声的场景下,视觉信号除了有效提升语音分离的质量,还可以把分离之后的音轨和视频里的人物对应起来。

视频内容

两个劈柴一起秀

为了突显视觉信息的作用,团队从劈柴小哥哥 (谷歌CEO Sundar Pichai) 的同一条演讲视频里截取了两个不同的段落,左右拼接成一段视频。如果只靠音频,便很难判断是左边的劈柴还是右边的劈柴在说话。

不,是你的字幕

语音识别的预处理,以及视频字幕的自动生成中,也能用上这个方法。遇到相互交叠的声音,视听模型或许可以解决,以往语音分离系统遇到的难题。

有访问外国网站技能的大家,可以使用油管的字幕功能 (cc) ,对比整容前和整容后的视频,看看字幕有没有更准一些。

刚才谁在说话

这是论文的传送门:

https://arxiv.org/pdf/1804.03619.pdf

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2018-04-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 量子位 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 视听语音分离模型
  • 训练成果秀
  • 不,是你的字幕
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档