前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >VUI (语音交互)

VUI (语音交互)

作者头像
Fred Liang
发布2018-07-06 18:30:00
2.2K0
发布2018-07-06 18:30:00
举报
文章被收录于专栏:Fred LiangFred Liang

去百度 DuerOS (度秘)面人工智能(有些噱头成分)产品岗。 HR 说要面试到年后,断断续续要面试一个月,加上三个月实习要到5月份才能实习完。 又要负责黑客马拉松举办,不如等到暑假实习。 目测实习要鸽。

语音交互界面(Voice User Interface,VUI)、手势、动作、表情交互,甚至脑机接口,都属于自然用户界面(NUI)。

一.DuerOS 相关


DuerOS 是一个对话式人工智能操作系统,为相关语音交互设备提供一个解决方案,类似于最佳实践。

一开始还是以为 TO C ,后来意识到是 TO B 的。

1.模式

可以将常用的语音助手处理模式进行一个简化。

  • 语音识别:语音到文字
  • 自然语言处理对接服务:根据关键词/语句交付给不同承接服务
  • 反馈用户处理结果:反馈语音执行结果

整体的模式其实不是很复杂。

但是 DuerOS 作为一个"系统"级别的基础设施,基于语音输入,兼容多种输入方式,包括视觉,触觉等。也就意味着处理模式的复杂度大大提升。

2.组成

DuerOS 分为:核心接入组件、开发套件、参考设计三层

Duer 模式示意图
Duer 模式示意图

核心接入组件

核心接入组件分为“系统唤醒”和“SDK 层”。

系统唤醒主要是唤醒语音助手。 SDK 层主要是不同系统环境接入,正在认证 DuerOS 的开发者,后期可以试一下。

核心接入组件以软件为主。

开发套件

开发套件包括芯片模组和麦克风阵列。 以硬件为主。

参考设计

参考设计是以工业设计为主,包括ID工业设计,MD 结构设计以及音腔设计。 偏向硬件设计。

3.承接业务

个人把后面的承接业务分为三类,首先是IOT,其次是软件服务类,最后是对话类。

IOT 类服务

因为 IOT 类服务的触发模式是非常确定的,完全可以给出一个触发的模板来触发 IOT 设备的动作。

比如“打开电视机”,“在明早8点打开空调”等。

软件服务类

将现有服务提供一个新的语音接口。

例如“购买一包薯片”,“打车到三里屯”等 其实就是将语音对接到商城以及打车服务的接口进行后续操作,将操作对接到语音交互上面。

对话类

对话类是对于语音服务的技术性要求最高的,也就是说对话机器人需要回答开放式的问题。

二.VUI


1.定义

根据Amazon Alexa的解释

A voice user interface (VUI) allows people to use voice input to control computers and devices. In short, it’s what enables voice experiences like the Star Trek computer and Alexa, Amazon’s voice service and the brain behind millions of devices including the Amazon Echo. Voice experiences are great when they offer a faster, easier, or more delightful way of doing things.

认为语音用户界面(VUI)允许用户使用语音输入来控制计算机和设备。

2.为什么 VUI 使用越来越广泛

line chart of usage
line chart of usage

在最近的几十年,我们可以看到几次人机交互的巨大变革,并且迅速被大众所接受。

从键盘,到点击,到拖拽,到多点触控。

每次变革,都带来了更高效的交互模式以及更低的使用门槛,从而极大了拓展了计算机的使用场景。

3.VUI 落地的催化剂

  1. Web 服务以及 IoT 设备的丰富。Web 服务提供了丰富的语音交互服务应用场景,而物联网设备则提供了无数新的感知维度的数据。
  2. 硬件设备的能力,目前的语音设备已经可以提供远场语音处理(FFVIP, far-field voice input processing)。允许人们将语音作为一个辅助输入方式。
  3. 机器学习等领域的发展自然语言理解(NLU),语音识别(ASR, Automatic Speech Recognition),语音合成(TTS,Text To Speech)相关领域发展为语音交互奠定了基础。

4.VUI 的优势

高效的交互方式就是好的交互方式。

交互方式

速度

准确度

负荷

感官维度

效率

学习成本

键盘

视觉,触觉

触控

视觉,触觉

语音

听觉

5.VUI 目前的问题

1) 远场识别

  • 多通道同步采集硬件研发
  • 前端麦克风阵列降噪算法
  • 后端语音识别与前端信号处理算法的匹配
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一.DuerOS 相关
    • 1.模式
      • 2.组成
        • 核心接入组件
        • 开发套件
        • 参考设计
      • 3.承接业务
        • IOT 类服务
        • 软件服务类
        • 对话类
    • 二.VUI
      • 1.定义
        • 2.为什么 VUI 使用越来越广泛
          • 3.VUI 落地的催化剂
            • 4.VUI 的优势
              • 5.VUI 目前的问题
                • 1) 远场识别
            相关产品与服务
            语音识别
            腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档