【PChome智能硬件信道信息报告]近日,据国外媒体报道,谷歌的研究人员开发出一种人工智能系统,它可以识别人的声音,在嘈杂的环境中,产生一个完全独立的声道。
目前,人工智能技术在图像识别领域有着更为成熟的应用,但在嘈杂的环境中识别人的声音显然更为困难。然而,事实上,谷歌的技术也非常依赖于人工智能图像识别技术。
谷歌介绍,该技术可以在单轨视频中分离不同的人的音频内容,并让用户手动选择视频中的人脸来听人的声音。这项技术将着重于嘴唇的运动,以便更好地确定在某一时间应该遵循哪种声音,并为更长的视频创建更精确的独立轨迹。
据报道,为了开发这项技术,谷歌研究人员收集了10万个YouTube语音视频,提取了大约2000小时的内容,混合了这些音轨,并添加了背景噪声。在训练AI系统时,系统可以通过观察每个视频中的面部和视频轨迹的频谱来分割混合音频,并且永远不知道哪个语音源属于特定的时间。
谷歌的技术将AI的图像和音频识别技术结合在了一起,但另一方面,这种技术也可能带来一些隐私风险
领取专属 10元无门槛券
私享最新 技术干货