前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于智能音箱,业界最关心的技术问题,我们来解答

关于智能音箱,业界最关心的技术问题,我们来解答

作者头像
京东技术
发布2018-07-30 16:21:53
4570
发布2018-07-30 16:21:53
举报
文章被收录于专栏:京东技术京东技术

受 访 人 简 介

汤跃忠

京东叮咚智能音箱首席科学家。从事语音技术研究领域20余年,现就职于京东叮咚智能音箱技术研发部门,负责语音技术、自然语言理解、机器翻译、产品创新等方面的工作。

导读:

自第一代京东叮咚智能音箱推出已经过了三年的时间,京东作为国内最早踏足智能语音交互领域的实践者,在打造京东叮咚智能音箱的过程中经历了300多次功能迭代优化升级,十几亿次的交互,积累了大量语音识别、语音合成、语音唤醒等技术经验。本文将选出几个最受业内关心的问题,直观京东叮咚智能音箱的成长之路和未来之路。

会话式人工智能作为一项技术已经研究了近50年,发展至今围绕语音交互的关键技术分别是语音识别、语音交互和自然语言处理。从2011年深度学习算法成熟以后,这三个关键性技术都取得了不同规模的发展,尤其是语音识别技术,已经进入至高速增长后的稳定发展阶段,语音识别效果近乎完全可与人类媲美。而语音合成与自然语言处理,则是最被科学家们期待的下一个会取得重大突破的技术。

>>>> 京东叮咚音箱如何提高语音识别的正确率?

京东叮咚音箱多管齐下来提高语音识别率:

首先,京东叮咚音箱在国内率先使用了麦克风阵列技术,它优异的定位、降噪、回声消除能力,为提高语音识别率打下了基础;

其次,采用了全球最领先的中文语音识别技术,在国内率先运用了深度学习的最新成果,大大提高了识别率,算法在不断地更新换代;

接着,针对京东叮咚每款音箱的不同特点,都对语音模型进行了针对性的优化;对于不同性别、年龄、口音的用户,如老人、小孩、南方用户,专门收集特征语音数据来改善语音模型;

最后,建立长效更新机制,不断收集和音箱相关的语料,更新京东叮咚音箱词汇库和语言库。这些措施保证了京东叮咚音箱的识别性能处于领先水平。

>>>> 为什么要做自定义唤醒词?

就像人们喜欢给自己的宠物起个带有意义的名字一样,当唤醒词由用户自己定义时,用户与智能音箱所搭载的智能世界之间的心理联系就建立起来了;另外唤醒是每一次用户与音箱进行交互的第一个接触点,唤醒环节的体验在整个交互过程中都极其重要,所以唤醒体验的好坏直接能影响用户接下来对音箱使用情况。

实现自定义唤醒词功能,首先要保证音箱的唤醒率,而一个唤醒词往往需要百万级别的训练数据才能生成模型,但自定义唤醒没有现成的数据,这需要依托大数据技术泛化成数据模型,将定性文本转为定量数据,过程涉及到语音学、声学、现代汉语等诸多领域。

其次,不同的唤醒词还需要自己独有的唤醒阈值,业界的普遍做法是确定唤醒词后在一个大的测试集中进行调节,但这种方案显然不适合自定义唤醒的实时需求,为此团队研发了一套稳定的阈值设置方案,保证唤醒率的同时也能够有效降低误唤醒。

最后,不是所有词语都可以作为唤醒词,技术团队引入了量化的客观标准,通过评星级的方式来告诉用户唤醒词的级别,引导用户作出正确选择。

目前京东叮咚音箱自定义唤醒词功能的使用率超过了50%,说明个性化功能得到了用户的认可,满足了用户的需求。而且使用个性化唤醒词的用户活跃度也明显超过使用系统唤醒词的。

>>>> 自然语言理解技术的应用?

语音识别是智能音箱的基础,而基于语音识别的结果的自然语言理解可以说是智能音箱的核心。在自然语言理解领域,目前主要是三种方法:以概率模型为代表的经验主义、以深度学习为代表的连接主义、以知识图谱为代表的符号主义。

这三种方法各有所长,在京东叮咚音箱系统里,科学地把这三种方法集成在同一个架构下,利用了各自的特点,在漏警和虚警之间达到一种平衡。目前,自然语言理解都是基于领域里,由于京东叮咚音箱发展得比较早,积累比较丰富,目前已经能处理数百个领域的自然语言理解。

>>>> 技术与产品之间的平衡如何把控?

智能音箱是人工智能时代的高技术产品,技术是它的基础。在智能音箱中集成了麦克风阵列降噪、语音唤醒、语音识别、语音合成、自然语言理解、物联网等当今最前沿的技术,但是智能音箱并不是简单的技术堆砌,作为产品,在需求分析、产品设计、产品开发、产品生产、产品维护过程中,要不断把握需求、成本、技术、体验之间平衡。

举个例子,在京东叮咚音箱进行内部结构设计时,既要从技术角度来保证音波和麦克风阵列的均衡触达,也要考虑安装、维护时的工艺性,同时还要考虑所用材质的成本和可靠性。再比如,研发过程中,有人曾提出是否可以支持唤醒词置后,比如“我想听歌,叮咚叮咚”,这在技术上是可行的,但是可能在体验上会带给用户音箱是否在偷听的疑惑,所以这个提议没有被采用。

对于智能硬件产品,技术是生命线,但也不能唯技术论。

>>>> 京东叮咚音箱未来的路?

作为国内智能音箱的开拓者,京东叮咚音箱一直在尝试各种新技术,持续地追踪最新的技术进步,并把这些技术运用进自己的产品中。综合对需求、成本、技术、体验等各种因素的考量,去推出新的产品迎接市场的挑战。同时,智能音箱作为IoT的重要一环和京东集团未来技术发展的重点方向之一,会持续建设和扩大IoT生态圈,让更多的用户享受到更多、更好的服务和内容。

图:京东叮咚PLAY的多模态交互

---------------------END---------------------

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-07-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 京东技术 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • >>>> 京东叮咚音箱如何提高语音识别的正确率?
  • >>>> 为什么要做自定义唤醒词?
  • >>>> 自然语言理解技术的应用?
  • >>>> 技术与产品之间的平衡如何把控?
  • >>>> 京东叮咚音箱未来的路?
相关产品与服务
NLP 服务
NLP 服务(Natural Language Process,NLP)深度整合了腾讯内部的 NLP 技术,提供多项智能文本处理和文本生成能力,包括词法分析、相似词召回、词相似度、句子相似度、文本润色、句子纠错、文本补全、句子生成等。满足各行业的文本智能需求。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档