专栏首页企鹅号快讯作为搜狗语音交互补充的唇语识别 发展到哪一步了

作为搜狗语音交互补充的唇语识别 发展到哪一步了

无声的世界里,你只要动动嘴唇,就可以被识别出说了什么、甚至被转化为语音,是不是很智能便利、同时又颇为惊悚?

今年12月,第四届世界互联网大会,搜狗发布唇语识别技术,也系业内首次公开演示。其背后的商业逻辑是什么?这项技术发展到什么地步了?

一、为什么要做唇语识别

搜狗语音交互技术中心负责人陈伟首先回顾了搜狗在语音交互方面的发展历史——早期搜狗于移动时代主要做两件事——输入法与搜索。后来进入智能时代,设备由手机变为IOT设备,人与智能硬件之间的连接也变为搜狗知音引擎这样的自然交互引擎,而硬件、信息,或更深度信息之间的连接,则是利用深度引擎来连接。

于搜狗语音交互整体而言,语音、翻译、识别合成技术,以及目前刚刚公开的唇语识别,均系搜狗语音识别大框架之下的内容,“这也体现了搜狗目前人工智能战略即是自然交互与知识测算。”

至于搜狗知音引擎自去年8月3日发布之后,到如今的一年多时间里,已形成三个解决方案:

语音听写解决方案;

语音交互解决方案;

语音翻译解决方案

陈伟表示,就本质而言,听写技术的作用就是将语音转化成文字,而如今搜狗发布的搜狗听写,则是希望通过机器的方式,自动将人的语音转化成文字。具体落地上,搜狗听写技术已经落地上百场会议,包括法院评审等工作。

而听写模块的语音交互,则结合了语音识别、语音合成与语音理解的能力,应用于不同刚需场景,包括手机、移动端穿戴设备、车载后视镜与车机等,也包括后续会应用的智能家居。

直到此次世界互联网大会,搜狗CEO王小川演示了最新语音同传案例与唇语识别技术,陈伟表示,除了同传,现场最称得上黑科技的,就是搜狗唇语识别技术了。

回顾唇语识别技术的研发起始,陈伟对雷锋网称,当初主要考虑着,围绕搜狗主路线上的工作,将图像和语言进行打通,实现从图像中转化出人讲话中的信息——“这也是对唇语识别的整体思考,以及对应整个知音引擎产品思考上的唇语识别的一个位置。”

王小川则表示,“因为搜狗搜索和输入法其实都在跟语言打交道。一方面帮助人们用语音表达,另一方面通过语言获取互联网上的信息,但在一些嘈杂、甚至无声的环境里,语音所能发挥的作用是有限的,于是在这种情况下,搜狗决定发展基于视觉的语言识别能力作为补充”。

具体应用上,就是将语音识别与唇语识别相结合,在噪音特别强的情况下,让后者辅助前者,形成包括视觉、音频、唇语在内的多模态输入。

目前,陈伟对雷锋网表示,在解决噪声问题上,仍是麦克风阵列比唇语识别更靠谱。在落地速度上,麦克风阵列已然落地,而唇语识别刚刚启动研发第一步,之后将要进入与音频结合解决降噪问题的阶段。

但唇语识别有其独特的场景优势,例如,当周围过大噪音造成语音指令无法被准确捕获、识别时,唇语识别可以帮助规避这一影响,确保输入的准确率,保证交互的稳定性;在安防领域中,由于目前很多监控场景,如电梯、马路中只有摄像头没有麦克风,通过唇语识别技术,则可以获取重要的用户讲话信息,为公共安全提供有效支持;此外,搜狗唇语识别还能服务于听障、失语人士等。

综合来讲,陈伟表示,目前搜狗唇语识别主要应用于两大场景:

其一,在多数语言场景下,摄像头的覆盖率远远高于麦克风,但通过摄像头获得的图像数据主要用于监控简单的行为,很难在安防等场景中,精确了解图中人物在说什么,但使用唇语识别技术就可以通过嘴的动作获取大量内容信息;

其二,唇语识别可以作为辅助技术,提升语音识别技术现阶段的准确率。搜狗的唇语识别技术目前在开放的口语测试级上可以达到50%-60%的准确率,在限定场景中可以达到90%。

二、发展状况与难点

相较于采用传统模型来研究唇语识别技术的英国东英吉利大学,搜狗选择了采用深度学习的方式来做,主要围绕着:

一,到底用了多少数据

二,算法复杂度有多高,储存能力有多强

三,应用场景到底是什么

那么唇语识别的难点在哪里呢?

第一,陈伟表示,语音交互准确率低的问题一直没有解决,很大原因就是语音噪声问题无法解决,加入安置到安静场景中,就可将准确率提高到97%的高度。也就相当于近场语音听写的过程,但这种理想状态是很难实现的。

为了解决这个问题,陈伟表示,搜狗提出两种方式:

一是通过硬件的方式,比如团队正在做的麦克风阵列,通过增强语音信号的方式,将噪声屏蔽掉,提升语音识别准确率。

其次,绕开噪声,能动性地添加多模态信息,也就是所谓的在唇语识别外添加视觉信息

第二,目前的人工智能多是机器模仿人,但弱人工智能很难实现对人类的超越。“也就是读唇这件事光看唇动的话,并不是一个非常明显的特征,往往依赖于上下文语言的信息。”

此外,陈伟表示,普通话有4个调,而英文没有调,因为英文基本的发音单元在50个左右,而中文如何声韵母切开来看的话,如果详细建模至少在200个左右,所以发音单元之间有很大的差别。

最大的难点则在于泛化能力的训练。陈伟以Google举例称,Google的泛化是基于2010年至2016年整个新闻访谈训练集的数据,在闭集训练内,准确率可以保证为较高水准。比如搜狗早期针对新闻联播级主持人的泛化训练,其准确率可达70%以上。

陈伟对雷锋网表示,基于开放口语测试级时,基本可以保证50%-60%的准确率,而在垂直场景下,由于语音相对来说不会太发散,准确率可以相对提高,比如在车载与智能家居场景下。

至于唇语识别是否会涉及到用户隐私安全这个问题,陈伟表示,目前技术发展状态还未到该阶段,搜狗正在探索唇语识别与哪些具体刚需场景结合。

本文来自企鹅号 - 雷锋网媒体

我来说两句

0 条评论
登录 后参与评论

相关文章

  • TensorFlow系列专题(三):深度学习简介

    作为机器学习最重要的一个分支,深度学习近年来发展迅猛,在国内外都引起了广泛的关注。然而深度学习的火热也不是一时兴起的,而是经历了一段漫长的发展史。接下来我们简单...

    磐创AI
  • 学界 | 词错率2.97%:云从科技刷新语音识别世界纪录

    云从表示,这已是云从在近半年以来第二次宣布刷新世界纪录。今年 4 月,云从科技跨镜追踪技术(ReID)技术在 Market-1501,DukeMTMC-reID...

    机器之心
  • Python语音识别终极指北,没错,就是指北!

    整合了语音识别的 Python 程序提供了其他技术无法比拟的交互性和可访问性。最重要的是,在 Python 程序中实现语音识别非常简单。阅读本指南,你就将会了解...

    马哥linux运维
  • 滑铁卢大学与DarwinAI开发离线语音模型,准确率可达97%

    通常,语音识别的深度学习方法依靠强大的远程服务器进行大量处理。但是,滑铁卢大学和创业公司DarwinAI的研究人员声称已经开创了一种设计语音识别网络的策略,该策...

    AiTechYun
  • 【SIGAI高校巡讲回顾】北京邮电大学站

    2018年11月01日晚7:00-8:30,SIGAI高校巡回讲座在北京邮电大学举行,举办地点是教3楼235,本着搭建高校交流桥梁,拓宽学生科技视野的目的,SI...

    SIGAI学习与实践平台
  • 寒冬来临?AI公司面临大考

    人工智能并不是一个新的概念,它实际上诞生于 20 世纪 50 年代。在这 60 年间,人工智能的发展并不是一帆风顺,而是起起落落,先后经历了 Pre-AI 时代...

    AI科技大本营
  • 科大讯飞又谈“人机耦合”:AI替代人不是最牛的,让人用AI才是最牛的

    今天是1024程序员日,也是科大讯飞的1024开发者节,在合肥奥体中心,科大讯飞把它们的开发者节办成了演唱会的形式。

    镁客网
  • 中国AI军团称霸全球口语翻译大赛!搜狗夺冠,讯飞阿里二三

    在刚刚落幕的IWSLT(International Workshop on Spoken Language Translation)国际顶级口语机器翻译评测大赛...

    量子位
  • 智能化软件开发:程序员与 AI 机器人一起结对编程

    AI 科技评论按:伴随着 AI 技术的发展和应用,人们对「人工智能」的认知也不断被刷新和拓展,在大众眼中,AI 正变得越来越强大,不仅可以下棋博弈战胜人类的顶尖...

    AI科技评论
  • SoundHound与本田合作,加速开发AI语音助手

    会话智能技术的领先创新者SoundHound宣布与本田建立战略合作伙伴关系,以加速AI语音助手的发展。

    AiTechYun

扫码关注云+社区

领取腾讯云代金券