前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >对话微信智聆团队:坐拥近10亿用户,微信如何用好语音这一入口?

对话微信智聆团队:坐拥近10亿用户,微信如何用好语音这一入口?

作者头像
大数据文摘
发布2018-05-21 17:42:16
2.3K0
发布2018-05-21 17:42:16
举报
文章被收录于专栏:大数据文摘大数据文摘

大数据文摘作品

记者:谭婧

如果说PC时代的搜索引擎成就了谷歌,造就了这家当今世界最大的数据公司,那么随着智能产品的普及,谁先用现象级产品掌握了语音的入口,谁就将成为AI时代的赢家。

而在今天,没有哪个入口能比得上月活用户即将达到10亿的微信。

亚马逊Amazon Echo、苹果Apple HomePod、谷歌Google Home

语音转换文字对(微信)用户来讲是很刚需的场景。”微信智聆技术团队告诉大数据文摘记者。确实,相比用“手”和“眼睛”,以及其他以手机和电脑为媒介的操作,“语言”无疑是人类最自然的交互方式。

纵观海内外科技巨头,多数通过“智能音箱”这一产品作为切入口。然而目前,在复杂的现实场景中,智能音箱的交互体验依然有限,比如调节空调温度的时候,向智能助手喊话可能还不如直接动手按按钮来得方便。

创新工场人工智能工程院副院长王咏刚也曾公开表示,仅仅是智能音响的唤醒词背后,就蕴含有巨大的技术含量:“如果要把唤醒词做到唤醒成功率70%以上,且唤醒的区间在1米到10米之间,并兼容众多不同的噪音环境,这是一件非常难的事情。对于现在已经发售的智能音响来说,能做到并做好的寥寥无几。”

相比而言,在微信中的这一应用就贴合得多。微信中常用的“微信语音输入”、“微信语音转文字”,以及王者荣耀里面的语音转文字功能背后,都由微信智聆团队提供技术支撑。

2017年11月微信正式推出微信智聆,这是微信AI团队基于深度学习理论自研的语音识别技术。为此腾讯准备了五年,在腾讯产品线微信、QQ、游戏、搜索等数十个产品中逐步应用。除了微信端,这一技术还在腾讯的其他产品线发挥了效用,包括腾讯翻译君、王者荣耀。腾讯表示这是目前业界领先的通用语音识别技术。

在1月15日的微信公开课PRO版之后,大数据文摘记者和微信智聆团队聊了聊语音识别技术。

大数据文摘:语音识别是感知技术这一类里面前沿的技术,许多人看待这个技术的时候觉得语音识别似乎已经被解决了,微信智聆如何看待现阶段语音识别技术存在的问题和机遇?

微信智聆:语音识别并不是已经解决的问题,语音识别的最终目标是任何人,在任何环境,用任何风格,无论大声还是小声,无论是正式还是随意,说任何领域的话,都可以被准确地识别出来才算。然而,这个目标目前并没有做到。目前业内比较普遍、成熟的还是环境基本安静、偏朗读方式的语音,这种情况下可达到较高的识别率,基本达到实用。但是,在碰到以下情况的时候,解决得还不够好:

(1) 环境嘈杂

(2) 远距离

(3) 重口音或纯方言

(4) 口语现象,说的很快,很随意

(5) 领域很相关,比如涉及到某个专业领域大量专有名词。

技术困难既是机会,更是语音识别赋能社会的机遇。在解决这些问题后,语音识别可走入千家万户与千行万业,真正成为提升社会效率的一个有力工具。

大数据文摘:近年来,语音识别技术取得了长足的进步,微信智聆的核心技术在哪里?

微信智聆:我们采用了深度学习神经网络LDNN结构,在解码空间,我们使用了大量数据训练的语言模型来尽可能覆盖更多的语言现象,同时使用了GPU进行推理,大大提升了效率。

大数据文摘:尽管采用了深度学习的技术,但语音识别技术仍然避免不了错误,而开发者的任务就是使得它能够像人一样,在有错误的时候去进行人机交互,修正错误,这需要感知技术和认知技术相互的帮助来实现。请问微信智聆如何用这两种技术相互帮助的?

微信智聆:目前更多的是通过统计模型在语音识别结果上做一些文本顺滑类的工作,尽可能去保证句子的主干是识别正确的。

大数据文摘微信智聆语音的数据有什么样的特色?

微信智聆:微信智聆从网络爬取公开数据、从正规渠道购买合法的第三方数据,以及请人来录制生成数据。同时,我们关注数据的覆盖度,包括人群年龄覆盖度(从儿童到老人),噪声场景覆盖度(马路,商场等环境),语言领域覆盖度,口音覆盖度(南北各主要城市口音),中式英文覆盖度(中国人中英混合语言现象)。

大数据文摘:语音数据没有人工标注很难用于算法和模型的训练。我们怎么处理这个难点?

微信智聆:目前基本我们采用的是有监督学习的方法,也就是说,数据都是有标注结果的。我们也在尝试一些半监督的方式,比如使用包含字幕的视频文件提取音频来自动训练,以及一些无监督说话人自适应的方法,这也是我们未来的一些规划。

大数据文摘:曾经有过统计,整个语音识别会分成搜索的速度和做神经网络前向传递的速度,这两个速度的比例,在传统系统里面前向传递的速度约占30%-40%,在各种各样的语言空间搜索的速度大体占60%-70%。据此,微信智聆在技术上如何突破速度的问题?

微信智聆:微信智聆采用的是静态解码网络结构,前向传递在运算过程中占比较大,70%-80%,因此我们采用了CPU和GPU异构计算,将大头运算量放到GPU上完成,可显著提升效率。

【今日机器学习概念】

Have a Great Definition

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-01-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 大数据文摘 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档