前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AI本质也是复读机?阿里和浙大联合推出读唇模型,中英双语实时复述

AI本质也是复读机?阿里和浙大联合推出读唇模型,中英双语实时复述

作者头像
大数据文摘
发布2019-12-18 15:53:49
6840
发布2019-12-18 15:53:49
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘出品

作者:LYLM、陈若朦

2002年世界杯上,法国球员齐达内到底被对手的话激怒,狠狠地拿头撞击对方胸口被逐出赛场,他的对手到底说了什么呢?——AI也许可以给出答案。

随着人工智能系统被赋予越来越多的功能,它将帮助我们解决更多问题。学会读唇语的AI暴露了其复读机的本质,可以解读许多被消音的谜团。而AI读唇的真正目的,是成为听力障碍患者的耳朵,帮助他们“听到”原本消失在耳朵里的声音。

据统计,目前全世界约有4.66亿的人不幸患有听力障碍,大约占到了世界人口的5%。根据世界卫生组织的预估,到2050年,这个数字将会攀升至9亿。

大多数患有听力障碍的人与正常交流会存在困难,手语是其中的一种交流方式。如何帮助听力障碍患者和聋哑人与外界交流,是很多人都在关注的问题。

交流首先要解决的是“听懂”别人的话,手语和唇语都可以可以作为一种相互理解的方法。听障患者通过读唇语得以获取信息,但是这个技能需要长时间的练习,并且即使掌握了识别率也很低。

“读唇术”交给AI实际上已经不是什么新鲜事了,早在2016年,谷歌deepmind和牛津大学的研究人员就开发了名为Lipreading视频标注系统,准确率达95.2%,远远优于受训的读唇者。2018年哥伦比亚大学研究团队开发了大型视觉语音识别系统。

为了追求更高性能的系统,近日,阿里巴巴、浙江大学和斯蒂文斯理工学院的研究人员共同开发出名为LIBS(Lip by Speech)的算法,在将从语音识别中提取出来的特征当作补充材料,其准确率达业界领先水平,同时还针对目前最大的普通话唇语语料库CMLR进行了训练,读懂中文也不在话下。

人工智能如何学会读唇?

机器读唇很困难,因为它需要从视频中提取时空特征(位置和运动都很重要)。现大多数机器学习系统只能进行单词分类,而不进行句子级的序列预测。

LIBS的研究者表示,这个系统在两个基准上管理着行业领先的准确性,在字符错误率上分别比基准高出7.66%和2.75%,能帮助有一定听力障碍的人群观看无字幕的视频。

LIBS可以从视频中的多个层次提取有用的音频信息,包括在序列层、语境层和帧数层。将提取的数据与视频数据对齐,识别对应部分(由于样本数量和缺失值不同,可能存在开头或结尾部分的视频和音频序列长度不一致的情况),并采用了特定的筛选方法对有用特征数据进行了提纯。

利用提出的多粒度知识精馏的不同层次,实现视频帧与预测字符之间的对齐(其中纵轴表示视频帧,横轴表示预测字符)

LIBS的语音识别和唇语识别都是基于注意力机制的“序列到序列”(Sequence-to-sequence)模型,这是一项机器翻译方法,将序列(例如音频或视频序列)输入转化为标签和注意值的输出。

值得注意的是,序列到序列模型在自动语音识别(ASR)领域越来越受欢迎,因为它将传统ASR系统的独立组件折叠成了单一的神经网络。

总的来说,LIBS通过引入一种新的过滤策略来从语音识别器中提取特征,并通过采用基于交叉模式对齐的方法,来进行帧级知识提取,从而解决两个序列之间采样率不一致的问题,以实现准确唇语识别。

研究人员分别使用LRS2和CMLR数据集在上述模型中训练,LRS2数据集中包含45,000条来自BBC的句子音频,而CMLR,来源于中国网络电视网,是包含100,000条以上自然语言句子的最庞大的普通话唇语语料库(包括3,000以上个的汉字和20,000以上条的词组)。

“LIBS减少了对非关键帧的注意力。”一名研究人员在其论文中这样描述,“帧数层知识的提纯进一步加强了对视频帧数特征的分辨能力,能使注意力机制更加集中。”

LIBS通过红色区域分析唇语

论文链接:

https://arxiv.org/pdf/1911.11502.pdf

句子越长,读得越准确

LIBS的研究团队发现,模型在使用过短句子(如LRS2数据集)进行预训练时得到的结果不大理想,因为解码器从少于14个字母的句子中提取有效信息的难度较大。

然而,一旦模型使用最大长度为16个单词的句子进行预训练,解码器由于获得了语境层的知识,对LRS2数据集的句末解码质量有了显著提高。

早在1982年,就有Easton和Basala的研究表明,人的唇读能力会随着长单词的出现而增强,这表明了在模糊的沟通渠道中,上下文间的特征词句捕捉时间重要性。

2016年的LipNet模型也是针对长句在读唇上的优势构建的。该模式利用时空卷积、递归网络和连接主义时间分类损失,将一个可变长度的视频帧序列映射到文本。LipNet系统通过6个不同的电视节目、共超过10万个句子进行5000小时的训练。最终这个AI系统通过只看每个说话人的嘴唇,就能准确地破译整个短语。

读唇AI将成为人类的“复读机”

近年来,随着深度学习的发展和训练大数据的可用性,人工智能系统学习读唇取得了前所未有的进步,表现也有了很大的提高。

读唇对于人类来说也是一项困难的工作,当人们看到说话人的嘴巴时,通常会被细微的、容易混淆的唇形变化所困惑。所以说,AI读唇的实现具有巨大的实用潜力,它可以用于改善助听器、公共空间中的默写、嘈杂环境中的语音识别、生物识别和无声电影处理。

AI读唇不久后将可作为应用程序整合到手机中,这使得听力障碍患者无论走到哪里都能随身携带一只“耳朵”。这样的系统还可以帮助那些因为声带受损而不能说话的人“发出声音”。

另外,LIBS团队表示在未来的工作中,他们期待着将同样的框架应用到其他模态中,比如语音和手语系统。

相关报道:

https://venturebeat.com/2019/12/04/researchers-develop-ai-that-reads-lips-from-video-footage/

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-12-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档