搜狗推出唇语识别技术,识别率90%超越去年的DeepMind团队

在刚刚过去的第四届乌镇互联网大会上,搜狗展台凭借着机器翻译、搜狗明医、搜狗大律师、智能问答、唇语识别等人工智能技术、产品受到参会者的关注,其中最吸引眼球莫过于唇语识别了。

所谓唇语识别是通过机器视觉,不用听声音,仅靠识别说话人的唇部动作,就能解读说话者所说的内容。

了解人类起源与未来,搜索:来自外星人的讯息

搜狗语音交互中心技术总监陈伟

与语音识别不同,唇语识别是一项基于机器视觉与自然语言处理于一体的技术,因此难度也比语音识别大的多。

搜狗语音交互中心技术总监陈伟向我们介绍了唇语识别背后的技术逻辑。唇语识别需要通过摄像头,从图像中连续识别出人脸,并提取说话人连续的口型变化特征,然后将这些唇语特征放入唇语识别模型来获取发音单元,并通过语言模型来获得文本数据,最终输出文字。

据搜狗介绍,这也是国内首个公开演示的唇语系统。搜狗通过端到端深度神经网路技术进行唇语序列建模,并通过数千小时的真实唇语数据训练,所建立的词汇表已经在10万词以上,在通用唇语识别上已能够达到60%的准确率,而在搜狗深耕的车载、智能家居场景下可以达到90%的准确率。

在搜狗主要布局的车载、智能家居场景下,由于限定了边界,所使用的词汇则大大降低,搜狗又针对这些场景通过制作“限定词”的方式,如车载场景的“播放音乐”来大大提升唇语识别的准确率。目前搜狗团队已经围绕场景做了1000多个限定词。

正常人的唇语识别能力在10%左右,一些受过训练的聋哑人则可以达到40%左右,而在这项能力上机器已经超过人类。

“就是把语音识别和唇语识别做到很好的结合,让唇语识别起到辅助作用”,陈伟表明了最初做这件事的动机。尽管唇语识别的准确率还不够高,但是通过限定场景,扮演辅助角色或许可以进一步提升远场语音交互的准确性。

来源:人工智能机器人联盟

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171218A0HKC900?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券