人工智能唇语阅读能力超过人类

在数据处理和文件归档方面,机器的表现已经超过人类,如今机器还具备了唇语识别能力。

据英国《每日邮报》报道,英国一个研究团队开发了一款唇语阅读计算机程序,其能力甚至超过了人类专家。这款名为LipNet的软件由牛津大学开发,其唇语识别准确率最高达到了93.4%,经验丰富的唇语阅读者的准确率约为52%。

LipNet利用神经网络映射人类口腔运动,与语库内容一一匹配。在训练阶段,这款人工智能软件会通过视频脚本学习人发出的陌生指令,指令中带有含义模糊的短语,例如“请将蓝色设为四”。LipNet通过分解视频帧将人的口腔运动与已知指令相匹配。在测试阶段,约有2.9万段视频被用于训练人工智能,视频中的说话人为两男两女,软件会将训练结果与三名使用唇语的听障人士的准确率进行对比。

该项目由谷歌DeepMind等机构资助,其成果打破了过去79.6%的机器唇语阅读准确率纪录。但该团队表示,他们的目标是用真实案例来进行训练,项目研究人员Yannis Assael认为,只有使用更多的数据才能进一步提升表现。

该团队的研究论文已在ArXiv上发布。研究人员指出,唇语阅读器具有很大的实用价值,可用于听力辅助、公共场所的无声命令、秘密对话、在嘈杂环境中识别语音、生物识别和无声影片处理等。但Assael表示,不用担心这款软件被用于监视人们的对话,因为LipNet没法用来监控,这是因为唇语阅读需要能看到说话者的舌头——也就是说,视频画面必须是正面的,而且光线充足,才能获得良好的识别效果。

唇语识别是一项重大研究成果,进一步扩展了基于视觉的机器学习功能。实例学习这一机器学习技术可帮助计算机深入理解图像、场景等的具体含义,即使遇到的是陌生的图像或场景亦如此。

DeepMind研究人员最近通过为机器赋予记忆开发了软件的“一次性学习”能力,进一步强化了软件的理解能力。有了这种功能,系统只要对一个物体进行过学习,下一次遇到时便可自动识别。这样的进展看似微不足道,却可以大大加快人工智能系统的学习过程,让人工智能以更快的速度发展。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-12-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

扫码关注云+社区