首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

唇读人工智能可以帮助聋人或间谍

对于无法听到的数百万人来说,唇读可以提供一个窗口,可以在没有它的情况下丢失对话。但这种做法很难 - 结果往往不准确。现在,研究人员正在报告一种新的人工智能(AI)程序,该程序的性能优于专业的唇读者和迄今为止最好的AI,其错误率仅为之前最佳算法的一半。如果完善并集成到智能设备中,这种方法可以将唇读放在每个人手中。

编写可以阅读嘴唇的计算机代码令人抓狂。因此,在新的研究中,科学家转向了一种称为机器学习的人工智能,其中计算机从数据中学习。他们为他们的系统提供了数千小时的视频和成绩单,让计算机自己解决了这个问题.

研究人员开始使用140,000小时的YouTube视频,让人们在各种情况下进行交谈。然后,他们设计了一个程序,通过每个音素的嘴部动作或注释的单词声音创建几秒钟的剪辑。该程序过滤掉了非英语语音,非语言面孔,低质量视频和未直接拍摄的视频。然后,他们裁剪了嘴巴周围的视频。这产生了近4000小时的录像,包括超过127,000个英文单词。

哥伦比亚大学的计算机科学家Hassan Akbari说,这个过程和由此产生的数据集 - 比同类产品大7倍 - 对于任何想要训练类似系统来阅读嘴唇的人来说都是“重要且有价值的”。在研究中。

该过程部分依赖于神经网络,AI算法包含许多连接在一起的简单计算元素,这些元素以类似于人脑的方式学习和处理信息。当团队为节目提供未标记的视频时,这些网络会产生裁剪的嘴巴动作片段。系统中的下一个程序,也使用了神经网络,拍摄了这些剪辑,并为每个视频帧提供了可能的音素列表及其概率。最后一组算法采用了可能的音素序列并生成了英语单词序列。

Akbarni表示,将程序整合到一部手机中可以让听力障碍人士随身携带“翻译”。这样的翻译也可以帮助那些不会说话的人,例如因为声带受损。对于其他人来说,它可以简单地帮助解析鸡尾酒聊天。

Bear会看到其他应用程序,例如分析安全视频,解释历史镜头,或在音频下降时听到Skype合作伙伴。新的人工智能方法甚至可以回答世界上最大的一个谜团:在2002年世界杯决赛中,法国足球运动员齐达内被驱逐出局,因为他在胸部猛烈地撞击对手。他显然是被垃圾话引起的。说了什么?我们终于可以知道了,但我们可能会后悔不已。

文章来源:www.xixi.ai(息息人工智能)

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180801A177CD00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券