专栏首页腾讯云技术沙龙王尔玉:语言与语义识别的技术发展与趋势
原创

王尔玉:语言与语义识别的技术发展与趋势

12月15日,由腾讯云主办的首届“腾讯云+社区开发者大会”在北京举行。本届大会以“新趋势•新技术•新应用”为主题,汇聚了超40位技术专家,共同探索人工智能、大数据、物联网、小程序、运维开发等热门技术的最新发展成果,吸引超过1000名开发者的参与。以下是大数据AI分会场的演讲内容,稍作整理,分享给大家。

语音和语义识别在当今人工智能领域中占据重要地位,微信智聆致力于语音技术的研究和落地,提供的AI 语音识别技术,能够实现现场同传、语音实时转文字等多种功能。本次演讲将会从微信智聆语音技术发展入手,从技术角度分析其在移动产品线产品以及多种解决方案中的应用原理。

随着机器学习与大数据技术的发展,我们语音和语义识别在生活中占据大部分的地位,那么。语音语义识别在后面发展中有什么趋势呢?

语音识别,我们从技术上看,分了几个模块,开始是特征提取,然后是声学模型,字典和语言模型,最后是解码技术。特征提取是把语音信号变成适合语音识别的特征,把连续的语音信号变成一个离散的信号序列。声学模型的目的是把声音特征映射成连续的一些音素的序列。字典是通过查表的方式,把音素序列变成某一个词,然后再通过语言模型中多个词前后的搭配关系,把词序列变成完整的一句话。语音识别技术就是围绕这几个环节来的。

语音识别技术简史

技术发展基本上经历了几个阶段。

2009年之前的语音识别技术,我们这里姑且称它为传统语音识别系统,这时候特征是用MFCC和PLP。这个阶段HMM-GMM是主流的声学模型建模方式,HMM负责时序关系,GMM负责每一帧的分类。

2009年之后,DNN被成功的引入语音识别领域,这带来了系统性能的极大提高,此后CNN,LSTM等技术陆续被引入,声学模型和语言模型都可以使用深度学习技术来建模。

2014年左右,CTC技术摆脱了对于HMM的依赖,可以直接利用网络本身的记忆能力来序列建模。

再往后就是端到端的技术,在图像和机器翻译也用了很多。比如说第一个是CTC,直接将输入和输出关联起来,不需要区分声学模型和语言模型性。第二个是Encoder-decoder加上Attention机制,这也是源于机器翻译。

微信智聆语音平台

后面我们讲一下微信智聆语音的技术积累。

我们成立于2011年,现在有7年,团队规模30人,主要做的方向是语音识别、语音合成、声纹识别,语音评测等领域的研究和相关的应用。服务对象主要是To C的app,还有一些To B的业务。

具体讲一下,第一块是前端信号处理。首先是VAD技术,判断当前信号是否是有效的语音。但是语音信号并没有这么简单,里面会包含有一些笑声或者音乐等,这些片段,并不是语音识别所关注的,这里我们引入了音频事件分类技术,在信号中选取有效的语音部分。语音信号里面,还有很多背景噪声,比如背景人声、机场广播的声音,这时候我们需要一些降噪技术,来减小这些干扰。再往后很多人说话的场景,往往需要把不同的人区分开,说话人分割技术就是为了解决这个问题,提取出来想要的那个说话人的语音文本。

第二块是我们现在语音识别技术上的一些基础能力。首先是数据,我们在积累和收集数据的同时,也会通过一些数据合成方式来丰富数据的多样性。然后是,我们拥有大规模的GPU集群,在上面可实现多机多卡的并行训练和解码,可以满足各种各样深度学习模型的训练。在声学建模层面,我们可以根据不同的任务场景,选择合适的建模技术。在语言建模层面,我们拥有在线LM重估、RNN LM、时效更新、反馈纠错等技术。

我们近场语音识别,大概的性能,在输入场景下,识别率平均是97%。长语音的转写平均性能是90%左右。在地铁和公交等一些噪声场景下,识别率在87-88%左右。

后面简要介绍一下我们在用的一些比较独特的建模方式。第一个是多目标的中英混合建模方式,提高混合说场景下的识别率。第二个是自定义语言模型的技术,可以快速提高垂直领域的专有词汇等的识别率。

微信智聆云端案例

讲一下我们的应用案例。首先是手机上APP的近场应用,这块落地50余款app,每天有4亿请求。第二个是电话客户需求,我们有交通、金融、教育、保险等垂直场景的解决方案。目前云端接入量是每天3万小时,同时我们也提供私有化部署。

腾讯同传是为了满足国际会议现场双语字幕上屏,或者提供会议纪要,今年服务了100多场会议,包括博鳌亚洲论坛,世界人工智能大会,中国首届进口博览会等国际顶级会议。

另外一个应用场景是公检法,这里我们提供说话人角色判别,麦克风阵列等技术,主要是用在法庭审讯和公安问询。

最后是腾讯云小微,给智能硬件提供语音交互的能力,目前主要应用于音箱、汽车、机器人、电视等。

总结

我的分享就到这里,谢谢大家!

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 倪捷:智能语音扩展数字化服务

    广义上来讲智能语音技术有各种各样的定义,以上是常见的一些热门的场景。语音识别,刚才罗老师也分享了部分内容。语音合成是文字变成语音,这部分我们后面会详细展开。再往...

    云加社区技术沙龙
  • 罗冬日:深度学习在语音识别上的应用

    我今天演讲主要分四个部分,第一个是分享语音识别概述,然后是深度神经网络的基础;接下来就是深度学习在语音识别声学模型上面的应用,最后要分享的是语音识别难点以及未来...

    云加社区技术沙龙
  • 谢滔:微信同声传译插件——开放智慧语音

    12月15日,由腾讯云主办的首届“腾讯云+社区开发者大会”在北京举行。本届大会以“新趋势•新技术•新应用”为主题,汇聚了超40位技术专家,共同探索人工智能、大数...

    云加社区技术沙龙
  • 语音识别基础学习与录音笔实时转写测试

    小编所在项目中,C1、C1Pro、C1Max录音笔,通过BLE和APP连接,音频文件实时传输到录音助手App端,具备实时录音转写的功能。工欲善其事必先利其器,小...

    用户5521279
  • 腾讯犀牛鸟精英人才培养计划课题介绍(二)——语音技术&自然语言处理

    ? 腾讯犀牛鸟精英人才培养计划是一项面向学生的校企联合培养方案,项目覆盖机器学习、量子计算、计算机视觉、语音技术、自然语言处理等产学研热点方向,入选学生将到腾...

    腾讯高校合作
  • 深度解读 | 为何众科技巨头都在抢滩语音识别技术?

    大数据文摘
  • 搜狗智能导航实现与汽车全程对话,车内语音交互要火

    在近日于上海举办的2016年亚洲消费电子展(CES Asia 2016)上,无人驾驶、智能汽车等相关技术成为最大热点。在CES Asia上,搜狗地图发布了“搜狗...

    罗超频道
  • 干货 | 极限元算法专家:深度学习在语音生成问题上的典型应用 | 分享总结

    AI 科技评论按:深度学习在2006年崭露头角后,近几年取得了快速发展,在学术界和工业界均呈现出指数级增长的趋势;伴随着这项技术的不断成熟,深度学习在智能语音领...

    AI科技评论
  • 超过十分之一的报告篇幅给语音,互联网女皇为何看好麦克风?

    KPCB合伙人、享有“互联网女皇”称号的玛丽·米克尔的互联网趋势报告于今天正式发布。毫不夸张地说,这份报告是互联网行业分析的“超级碗”,它用200多页的Keyn...

    罗超频道
  • 神一样的文字转语音软件,不仅免费功能还强大

    之前给大家推荐过小程序分享丨智能文字转语音神器,讯飞快读这个小程序可以解决大家文字转语音的问题,小轻论坛也绑定了讯飞快读,大家可以在公众号的菜单栏打开这个小程序...

    半夜喝可乐

扫码关注云+社区

领取腾讯云代金券