DeepMind开发唇读AI以帮助识别语音,效果优于专业唇读者

编译:chux

出品:ATYUN订阅号

对于数百万失聪者来说,唇读可以提供一个窗口,可以跟上对话。但这种做法很难,结果往往不准确。现在,DeepMind研究人员报告一种新的AI程序,该程序的性能优于专业的唇读者和迄今为止最好的AI,其错误率仅为之前最佳算法的一半。如果完善并集成到智能设备中,这种方法可以让每个人都懂唇读。

编写可以阅读唇语的计算机代码令人抓狂。因此,在新的研究中,科学家转向了机器学习,让计算机从数据中学习。他们为他们的系统提供了数千小时的视频和成绩单,让计算机自己解决了这个问题。

研究人员开始使用14万个小时的YouTube视频,让人们在各种情况下进行交谈。然后,他们设计了一个程序,通过每个音素的嘴部动作或注释的单词声音创建几秒钟的剪辑。该程序过滤掉了非英语语音,非语言面孔,低质量视频和未直接拍摄的视频。然后,他们裁剪了嘴巴周围的视频。这产生了近4000小时的录像,包括超过127000个英文单词。

哥伦比亚大学的计算机科学家Hassan Akbari说,这个过程和由此产生的数据集比同类产品大7倍,对于任何想要训练类似系统来阅读嘴唇的人来说都是“重要且有价值的”。

该过程部分依赖于神经网络,AI算法包含许多连接在一起的简单计算元素,这些元素以类似于人脑的方式学习和处理信息。当团队为节目提供未标记的视频时,这些网络会产生裁剪的嘴巴动作片段。系统中的下一个程序,也使用了神经网络,拍摄了这些剪辑,并为每个视频帧提供了可能的音素列表及其概率。最后一组算法采用了可能的音素序列并生成了英语单词序列。

经过训练,研究人员用37分钟的视频测试了他们的系统。他们发布在arXiv网站上的一篇论文中报告说,错误率仅为41%。这可能听起来不是很多,但最好的以前的计算机方法,专注于单个字母而不是音素,单词错误率为77%。在同一项研究中,专业的唇读者错误率为93%(尽管在现实生活中他们仍然有语境和肢体语言,这有助于读唇)。

该程序理解音素可能看起来不同,具体取决于之前和之后所说的内容。(例如,嘴里的形状不同于“boot”中的“t”而不是“beet”中的“t”)。系统有单独的阶段来预测嘴唇的音素和预测音素中的单词。这意味着如果你想教系统识别新的词汇单词,你需要重新训练最后一个阶段。

Akbarni表示,将程序整合到一部手机中可以让听力障碍人士随身携带“翻译”。这样的翻译也可以帮助那些不能说话的人,例如声带受损。对于其他人来说,它可以简单地帮助解析聊天。

这种技术也可应用于其他程序,例如分析安全视频,解释历史镜头,或在音频下降时听到Skype伙伴的语音。新的人工智能方法甚至可以回答世界上最大的一个谜团:在2002年世界杯决赛中,法国足球运动员齐达内被驱逐出局,因为他猛烈地撞击对手。他显然是被垃圾话引起的,他说了什么?我们也许可以解开谜底了。

原文发布于微信公众号 - ATYUN订阅号(atyun_com)

原文发表时间:2018-08-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ATYUN订阅号

成为Beatbox大佬:AI助力将声音转化为节奏

为了帮助崭露头角的音乐家为他们的歌曲创造最佳节奏,来自日本AI创业公司的开发人员开发了一种名为Neural Beatboxer的深度学习系统,可将日常的声音转换...

1243
来自专栏人工智能快报

IBM研制出人工相变神经元器件

据IBM公司网站2016年8月消息,该公司科学家已利用相变材料制造出一种随机脉冲神经元,可用于存储和处理数据,这意味着IBM在开发用于认知运算...

3058
来自专栏大数据文摘

业界 | Cell最新:荧光标记out了,谷歌靠算法不用“侵入”也能识别细胞特征

1828
来自专栏ATYUN订阅号

AI帮助保护濒危的印第安语言——塞内卡

全世界有近7000种语言,其中约一半被认为是濒危语言。 这意味着他们中的许多人不在学校教授,语言不在商业或政府中使用,并且经常与计算机键盘不兼容。

1344
来自专栏PPV课数据科学社区

浅谈数据处理中的相关分析

大数据的发展经历了从因果分析到相关分析的转变。宏观上来讲,如果两个事务存在某种统计学意义上的依赖性就称两者具有相关性。这里我们就简单聊聊各种相关分析的方法。 1...

3647
来自专栏量子位

谷歌AI“你画我猜”强推“狗年版本”,腾讯AI要帮你修老照片 | 竹货新春

? 今天大年初一。为了庆贺中国农历狗年的到来,谷歌刚刚在自己的AI“你画我猜”游戏中更新了狗狗版本。 (你画我猜,介系里没有挽过的船新版本。挤需体验三番钟,...

4149
来自专栏AI研习社

支持Python!Facebook开源预测工具Prophet

【AI研习社】关注AI前沿、开发技巧及技术教程等方面的内容。欢迎技术开发类文章、视频教程等内容投稿,邮件发送至:zhangxian@leiphone.com ...

4005
来自专栏新智元

重磅!基于三维集成芯片的光量子计算原型机问世,上海交大金贤敏团队研制

10 月 29 日,最新一期国际权威学术期刊《自然•光子学》(影响因子:37.85) 以“Experimental quantum fast hitting o...

1175
来自专栏大数据文摘

炮灰模型:女生如何选择追求者的数学模型?

1852
来自专栏镁客网

CVPR 2016正式开幕,一大波黑科技正在奔涌而来!

1784

扫码关注云+社区

领取腾讯云代金券