首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

只听6秒语音新算法就能知道你长啥样

根据一个人的声音就能大致推测出他/她的面容?美国麻省理工学院和谷歌公司研究人员开发出一种计算机新算法,利用短短6秒的语音片段,就可以绘制出说话者的种族、性别、年龄甚至长相。

研究发现,生理和文化因素对人说话的声音同样有影响。年龄、性别、嘴巴形状、面部骨骼结构会影响人发出的声音,语言、口音、速度通常也会体现出民族、地域、文化特征。这解释了为什么与从来没有谋面的人打电话时,人们脑海中可能会形成关于对方长相的图像。凭借语音和相貌的关联性,人工智能(AI)能够听声音绘制说话者的相貌。

为此,研究人员利用视频共享网站涉及10万多人讲话的视频片段,对程序进行开发和训练,让其学习声音和面部的相关性,找到说话者的一些基本特征,比如年龄、性别、种族等。

研究人员表示,只需要听6秒的声音片段,AI就能够查找出人们说话时相关的面部特征,凭借听“一个人讲话的方式就能推断出相貌”。

研究显示,这种程序依据声音重建的人物面容接近说话者本人长相,能准确捕捉年龄、性别和种族特征,还能显现包括鼻子形状在内的面部特征。研究人员说,鼻子形状可能对发声有影响。

如果根据语言来预测种族,那么一个人说不同的语言会不会导致出现不同的预测结果?研究人员让一个亚洲男性分别说英语和汉语,结果分别得到了两张不同的面孔。有时,AI也能正确预测出结果,比如让一个亚洲小女孩说英文,虽然恢复出的图像和本人有很大差距,但仍可看出黄种人的面部特征。对此,研究人员表示,这个小女孩并没有明显的口音特征,他们还要进一步对模型进行检查来确定其对语言的依赖程度。

不过,在其他一些情况下,AI也会出现“翻车”的情况。比如:变声期之前的儿童,会导致模型误判性别发生错误;口音与种族特征不匹配;有时会将老人识别为年轻人,或者将年轻人识别为老人。

研究人员说,这项技术或许可以应用于为来电者配图等。一些分析师认为,它或有助于警方借助录音绘制嫌疑人容貌。同时,这个研究引发了一些隐私方面的担忧。不过,研究团队在论文中特别声明,该算法不追求完全精确还原单一个体的脸部图像。

(据新华社等)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190621A03J7400?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券