人类通常善于分离人群中的单一声音,但电脑并非如此,不过,谷歌可能有一个令人惊讶的直接解决方案。它的研究人员已经开发出了一套深入的学习系统,可以在讲话时通过观察人们的脸部来挑选特定的声音。该团队训练了其的神经网络模型,以识别个别人的说话,然后创建虚拟“派对”(带有背景噪音),教AI如何将多个声音隔离成不同的音轨。
结果是不可思议的,人工智能可以通过专注于他们的脸部,为一个人创造一个干净的音轨。即使人用手势或麦克风部分掩盖了他们的脸,但也可以。
谷歌目前正在其产品中使用这一功能,它可能是视频聊天服务的理想选择,它可以帮助您识别在拥挤的房间中聊天的人。它也可能有助于视频录制中的语音增强。这对可达性有很大的影响:会导致相机连接的助听器增强任何人在你面前的声音,以及更有效的隐藏字幕。存在潜在的隐私问题(这可能会用于公开窃听),但对需求该产品的人来说影响并不大。
而后网丨更多:https://www.ierhou.com丨原文:https://www.ierhou.com/3110.html
领取专属 10元无门槛券
私享最新 技术干货