开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

谷歌 AI 技术可在嘈杂环境中识别某一人声

文章来源：企鹅号 - 小马论科技

【PChome智能硬件信道信息报告]近日，据国外媒体报道，谷歌的研究人员开发出一种人工智能系统，它可以识别人的声音，在嘈杂的环境中，产生一个完全独立的声道。

目前，人工智能技术在图像识别领域有着更为成熟的应用，但在嘈杂的环境中识别人的声音显然更为困难。然而，事实上，谷歌的技术也非常依赖于人工智能图像识别技术。

谷歌介绍，该技术可以在单轨视频中分离不同的人的音频内容，并让用户手动选择视频中的人脸来听人的声音。这项技术将着重于嘴唇的运动，以便更好地确定在某一时间应该遵循哪种声音，并为更长的视频创建更精确的独立轨迹。

据报道，为了开发这项技术，谷歌研究人员收集了10万个YouTube语音视频，提取了大约2000小时的内容，混合了这些音轨，并添加了背景噪声。在训练AI系统时，系统可以通过观察每个视频中的面部和视频轨迹的频谱来分割混合音频，并且永远不知道哪个语音源属于特定的时间。

谷歌的技术将AI的图像和音频识别技术结合在了一起，但另一方面，这种技术也可能带来一些隐私风险

发表于: 2018-04-172018-04-17 17:55:28
原文链接：http://kuaibao.qq.com/s/20180417A181OL00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群