解读“唇语”一般都是在电视剧里出现的特殊人才所具备的技能,当然读“唇语”也被广泛应用于不便传小纸条的上课聊天以及考试作弊的场景下。不过这项特殊又神秘的技能被牛津大学研究院认为可以利用在人工智能技术上。
众所周知,通过获取大量数据来寻找“共同点”的人工智能技术能够提升音频语言识别,使其达到跟“面对面”对话一样的准确率,为什么它就能不能完成“读唇”的任务呢?
牛津大学人工智能实验室的研究人最新发表的论文中提到,他们使用深度学习技术开发出了一种“读唇”软件,他们的软件名为“LipNet”,它的“表现”要远胜于那些唇语解读者:在某些测试中,LipNet软件能够达到93.4%的准确率,而唇语解读者的准确率只有52.3%。
即便是现在还处在初期阶段,但这款软件运行的速度已经非常快,几乎达到了一种能够“实时”将静音视频转化为文本脚本的处理速度。
研究人员选用了一组数据库,用它对这套系统进行训练和测试。测试中,研究人员收集了来自34名志愿者所录制的短视频。在视频中,志愿者读取的是一些“毫无意义”的句子(比如插图说明),每个短视频只有三秒长,并且每个句子都采用非常简单的句式结构:命令动词+颜色+介词+字母+数字+副词,比如“set blue by A four please”或者“place red at C zero again”。
事实上,这些句子有它的局限性,比如,它们仅仅使用了四个不同指令和颜色词语,这也是引来了该领域其他研究人员的质疑,他们认为这份研究报告水分太大,让人难以信服。
不过,情况并非如此。在接受采访时,这份报告作者,同时也是两名研究人员Yannis Assael和Brendan Shillingford承认,他们的研究受限于单词和语法的限制。不过,这是由于可使用的数据有限,这个数据库非常小,但测试结果也说明了,它们能够在更大的数据库中也同样表现出色。”
Assael 和 Shillingford 都强调,他们的研究成果应用在监控领域,道理很简单,“读唇术”要求你需要注视目标人的嘴,这也就意味着,摄像头必须摆好到最佳位置来获取好的结果。“从技术层面来看,想要在监控领域应用读唇术,这是非常、非常困难的。”Assael表示。
不过,这两名研究人员表示,读唇人工智能能够帮助到那些听力受损的人群,尤其是在一个比较吵闹的环境(也就是计算机很难分离出噪音的环境)。
比如,这类人群可以佩戴内置摄像头的眼镜,他们在参加聚会的时候可以清楚地拍摄出目标人物说话时嘴唇动作,然后使用这款软件来实时将嘴唇“语言”翻译成文本,然后在将其语音传输到佩戴者耳朵中。
“只要你有语音识别和摄像头,我们就可以提升它。”Assael表示。他也提及到,苹果Siri或者Google Now语音助手或将能够应用他们的软件。
未来,或许我们就不敢对着自己的电脑讲话了,原因很简单,它们可能会读懂我们说得内容。