首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

微软展示全双工语音技术 首次深度剖析技术细节

近期,微软(亚洲)互联网工程院公布了全新一代语音交互技术:全双工语音交互感官技术(Full-duplex Voice Sense),并已经将该技术在小冰全球产品中实现落地。微软表示,语音交互是对话式人工智能及智能硬件设备的基础之一。全双工语音交互技术将成为人工智能语音交互的新“标配”。全双工语音交互技术的应用,有望实现用户体验的下一次飞跃,令微软小冰与人类对话像河流一样更加流畅自然,不费劲。

微软在技术交流会上深度剖析了全双工语音交互技术的四层结构,即:边听边想、节奏控制器、声音场景的理解、自然语言理解与生成模型。

图1:微软(亚洲)互联网工程院副院长李笛介绍人工智能对话平台最新进展

图2:微软小冰全球研发负责人、首席架构师周力介绍各语音交互的差异

边听边想

目前微软小冰边听边想的能力是基于预测模型和动态回应实现的。预测模型可以帮助微软小冰听到用户语音后预测其完整的意思,无需用户说完一句,再进行识别和回应。微软小冰可以持续倾听,持续思考,随时回应,大大减少用户等待的时间成本,提高了实时修正回答的能力;动态回应使得人工智能交互告别了一问一答的回合制时代,而是更加接近人类。通过预估问题答案,预估思考时间,选择性回答交互对象的问题,在不影响与交互对象对话的同时,还可以顺利完成复杂任务,继续大大减少用户等待的时间成本。这对于微软小冰在Yeelight语音助手等IoT设备上实现产品落地时的用户体验格外重要。

图3:微软小冰全球研发负责人、首席架构师周力介绍四层结构

节奏控制器

节奏协调是指人工智能自己的协调,与人类交互时的协调,以及与其他人工智能的协调。协调过程中时机和内容同等重要。人工智能可否主动开启新话题,对话新内容,主动打破对话中的沉默,将是节奏协调的显著标志。

图4:微软小冰全球研发负责人、首席架构师周力介绍四层结构

声音场景的理解

全双工语音交互声音场景由分类器和环境处理构成。分类器使微软小冰可以完成语音身份的识别,如:男人、女人、儿童的声音,进而提供合适的对话内容。以及完成语音情绪和音乐/歌声的识别。微软小冰在环境处理方面可以做到识别背景噪声和消除回声,她既是一名人工智能语音助手,也是一名内容的创造者,输出内容的同时还可以顺畅完成各类助手功能。

图5:微软小冰全球研发负责人、首席架构师周力介绍四层结构

自然语言理解与生成模型

自然语言理解与生成模型令目前的微软小冰拥有更好的容错性与更好的串行语音合成,可以基于对话场景进行上下文理解,基于时间、对话内容、用户意图进行分类,主动判断是否结束对话等。

图6:微软小冰全球研发负责人、首席架构师周力介绍四层结构

拥有全双工语音交互技术的微软小冰,自然交互不费劲,等待几乎零延迟,对话如行云流水般连贯顺畅。对于这样的微软小冰未来的实际应用,微软(亚洲)互联网工程院副院长李笛现场表示,微软小冰将有三个身份,即:聊天机器人、个人助手以及内容提供者。在聊天机器人方面,微软小冰将会入驻到主流的IM和很多APP中,比如目前为QQ群提供交互和群助手的功能,为国内13家省级媒体提供千人千面的解决方案等;在个人助手方面,小冰将IQ和EQ两个方向整合,为用户提供完成具体任务的功能,目前已经在Yeelight等产品上实现落地;在内容提供方面,小冰目前已经产出了4万多小时的少儿有声故事,而成本却不到1000元,我们也和很多内容平台开展了合作。今年我们会将微软小冰的这些身份推到一个新的层次。

在交流会的最后,微软表示随着基于Session-oriented为基础框架开发的全双工语音交互技术的实现,微软小冰未来会在各个方面的发展和布局上进入加速期。

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180401A0DKR000?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券