首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

搜狗研发“读唇术”,可密语传音

聚焦信息技术领域 为产业发声

导读

在12月初举行的第四届世界乌镇互联网大会上,很多企业携着自己的新产品在会展上亮相,搜狗展台凭借着机器翻译、搜狗明医、搜狗大律师、智能问答,尤其是唇语识别技术,引起了不小的轰动。近来,搜狗又举行了“唇语识别技术”媒体沟通会,公开演示了其唇语识别系统。

所谓唇语识别,是一项集机器视觉与自然语言处理于一体的技术,可以直接从有人讲话的图像中识别出讲话内容。搜狗此次展示的“唇语识别”技术,被定义为全新的人机交互系统,该系统支持更多的非特定词汇。

搜狗唇语识别系统操作性强 技术小白也能驾驭

搜狗的唇语识别系统的操作性是十分强的。在使用时,只要将脸放到系统的脸部识别框内就可以开始说话了。说话完成后只要点击结束按钮,在屏幕的下方就会出现识别结果。无论是口语、诗词、歌词还是绕口令,搜狗唇语识别系统都能很准确地识别。

唇语识别背后的技术逻辑是通过摄像头,从图像中连续识别出人脸,并提取说话人连续的口型变化特征,然后将这些唇语特征放入唇语识别模型来获取发音单元,并通过语言模型来获得文本数据,最终输出文字。这就涉及到了脸部识别、唇形提取、唇形结果识别等步骤。

搜狗唇语识别操作便捷 但原理可不简单

唇语识别技术包括嘴部检测、嘴部图像分割与对齐、唇动特征提取、唇语识别模型训练等环节。

嘴唇分割的目的是为了从视频的各帧图像中提取出嘴唇的区域,嘴唇对齐则是为了消除不同帧图像中嘴唇的位置、角度和尺度的不一致。

唇动特征提取是唇语识别技术的关键所在,也是技术的难点。由于不同人的口音和发声习惯各有差异,唇语训练数据和测试数据分布会有不小的差异。近年来,由于深度学习技术的发展,唇动特征提取技术也得到了长足的进步。

深度学习使系统在获取若干唇语样本后,会将该样本加入训练数据,使用算法训练出唇语识别模型。通过不断的学习,系统会积累出庞大的唇语信息库,这就是唇语识别技术的“大脑”。

搜狗唇语识别系统更聪明的“大脑” 使其准确率颇高

根据搜狗官方数据,搜狗唇语识别系统的准确率达到了60%以上,超过google发布的英文唇语系统50%的准确率。而在一些场景下,搜狗唇语识别系统的准确率竟达到了90%。搜狗唇语识别的准确率为什么这么高?这与搜狗进行过数千小时的真实唇语数据训练有密不可分的关系。训练积累下来的数据使搜狗唇语识别的“大脑”,相比已有的信息库来说,显得更加“聪明”。

搜狗官方表示,搜狗唇语识别系统首创了端到端深度神经网络技术,来进行中文唇语序列建模,经过数千小时的唇语训练,建立了10万词以上的词汇表。也就是说,搜狗唇语识别系统利用其独创的深度学习技术,积累了十分全面的唇语信息库,这个信息库可以覆盖绝大多数的唇语发音情况。

能力越大“责任”越大 搜狗唇语识别应用于多领域

准确率高,所涉及的应用范围就广,搜狗唇语识别可以为很多领域提供技术服务。

搜狗唇语识别系统可以运用到很多场景中,如在喧哗环境下更加精准的语音识别、识别监控视频中的讲话信息、残障教育和身份特征识别等等

唇语识别是身份特征识别的重要一项。由于发音习惯及嘴型的不同,每个人私有的一段唇动变化具有其唯一性,这就可以作为一种身体密码,用来进行身份认证。唇语识别在识别时会以唇语内容、嘴唇特征和唇动特性为基本依据进行识别,其安全性较高 。

虽然唇语识别的应用场景有很多,但搜狗官方表示,目前他们对自己的唇语识别系统的准确率还不够满意,其技术核心还需要升级与完善,因此这项技术的真正落地可能还需要一段时间。

声明:

部分图片及视频来源于网络

黄河连线系太原九州连线文化传媒有限公司旗下品牌

本平台法律顾问为山西晋商律师事务所

黄河连线原创文章,转载请注明出处

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20171220A0NQ3F00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券