首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

语音交互时代,你需要知道哪些?

随着人工智能技术的发展,机器能识别的东西越来越多,除了方便我们的日常生活外,同时也给语音这种交互方式带来了更多的实现可能。

但话说回来,这语音交互到底是个什么意思呢?相信还有很多人不知道,下面就由小编来给大家解释一下。

什么是语音交互

语音交互(VUI)本质上是通过语音输入来理解用户需求,并对其进行反馈的一种交互模式。简单来说,我们可以认为语音交互是一种人与机器之间更加自然的交互方式。

人机交互的演变过程

纵观历史,人类与机器之间的交互方式大体可以分为以下三个阶段:

1.代码指令交互(TUI,Text-based User Interface)

通过文本实现交互窗口展示内容,定位光标和鼠标实现用户交互,基本上就是我们见到的命令行那样的界面,这种界面操作复杂,它要求人类像机器一样思考并说话/打字,因此除了专业技术人员,普通人很难操作。

2.图形用户界面交互(GUI,Graphical User Interface)

典型代表即windows桌面,将原本复杂难用的文本界面图形化表达,降低了识别难度。不仅如此,GUI提供的解决方式,也使得人们不再需要告诉机器他们想要做什么,而是让机器提供可能的选项,人类只需要进行选择即可。

3.语音交互(VUI,Voice User Interface)

随着AI技术的快速发展,语音交互方式愈发成熟,机器的交互方式也随之改变。我们只需向机器表达我们的想法,机器就会自主进行判断并完成任务。最理想的状态是,除非是用户必须在既定的项目中做出选择,否则人们不再需要在有限的界面里进行信息的筛选。

那么VUI和GUI相比,又存在哪些优势和劣势?VUI又有哪些特征呢?

主要的优势

主要的劣势

通过对比发现:

GUI在清晰、高效、通用方面更具优势,能够准确给用户提供帮助,且具有很好的延展性和通用性;

VUI则是设计所要追求的一种最自然、最亲切的交互方式,是「带有情感、温度的交互体验」,真正的从用户角度出发。

基本框架

上边说到语音交互其实是一种更加自然的交互形式,那我们要怎样理解语音交互框架呢?其实我们可以从人-人交互来一探究竟。

我们不妨来设想一下,假如你叫人帮你拿杯水,场景应该是什么样子?

首先你要叫他的名字,他听到后会回答你一句或给你个眼神儿,这时候你知道他在听你说话;你继续说「把水杯拿来」,他可能需要想想水杯在哪或者询问你;之后他去拿水杯,你会看到他正在行动。我们将这一过程中的所经历的节点提炼出来,进行总结就是语音的交互框架:

如上图所示,语音的交互框架由以下四个节点构成,唤醒、输入、理解、回答/行动,每个节点用户又有相应的需求:

◆唤醒:用户有得到「是否唤醒语音」反馈的需求

◆输入:用户有得到设备正在「听说话吗」的需求

◆理解:用户有得到「在帮我说事情吗」 的需求

◆回答/行动:用户有查看任务是否完成的需求

但是仅仅了解交互框架是远远不够的,实际应用过程中,还要灵活进行设计,在不同场景下以上四个节点又会有不同的设计方式。

唤醒方式的选择

唤醒是语音交互的第一步,目前比较主流的唤醒方式有以下四种,每种唤醒的方式适用于不同的场景,下面会逐一说明:

1.实体按钮

按一个按钮或者切换一个控制器,优点是能够提供触觉反馈,一般在用户的视觉通道被遮挡或者是无GUI的场景下使用。

2.虚拟按钮

与实体按钮不同,其更偏向视觉反馈;有两种操作方式 – 点击和长按:

◆点击:波形反馈可见,用户能更好的确认设备是否在收音,大多数的近场交互都可以使用。同时车载场景特别适用,因为没有人能在驾车情况下还能腾出手来干其他事情。

◆长按:离麦克风距离比较近,能带来更好的收音效果。且微信养成的语音输入习惯使得长按更符合用户习惯,多应用于手持设备。

3.语音唤醒

用户会说出一个词来激发设备,然后设备就开始处理语音。在双手被占据和远距离场景下语音唤醒都是最佳的方式。

4.动作唤醒

用户在传感器前面挥手或作出特定动作,以触发设备。部分不具备GUI的设备或远距离场景会采用此类唤醒方式。

输入体验

唤醒之后的输入环节是语音交互设计的核心,如何打造优秀的设计体验?最重要的就是要做好反馈,因为用户对于这一节点的需求是要感知到设备正在「聆听用户说话」,因此需要:

实时响应/反馈

①视觉上通过相应地实时改变颜色和模式,来创造即时的认知反馈;

②听觉上通过声音的多种维度(音调、音色、音量和持续时间,比如两下响声)提示;

③与交互反馈进行匹配关联,通过光效清晰传达不同状态(比如有的智能设备,会在识别用户的语音时,配以流动的光效,就像人在思考时转动眼睛)。

信息输出要精简而有效

①设计元素上使用通用的设计隐喻符号,简单明了;

②在有限的显示界面,一次只传达一个关键信息,且突显核心,以便中远距离轻易可见;

③文字输出上要够精炼,不要有段落式的文本出现。

除了以上两点,我们在设计提示及反馈时还需要注意:

1.简短

提示应该是瞬间发生的,两下明确的响声比“你好,希望我现在为你做什么呢?”更有效。开始提示越长,用户说的话越有可能跟设备的提示发生冲突。

2.起点清晰

用户应该准确地知道他们说的话什么时候开始被记录。

3.一致

提示应该保持一致,声音或视觉反馈的不同会让用户产生困惑。

4.区分

提示应该跟设备正常的声音和视觉区分开且不能在其他任何背景下使用或者重复。

5.实时文本

用户在说话时,可以实时地显示文本的反馈。

总结

AI带来机器的认知能力和感知能力的提升,给人机交互带来的改变是根本的,我们与机器之间的交互也变得越来越自然。而呈现在界面上的,则是更加复杂、多样,甚至是多种内容混合的交互界面,这对于产品的设计者而言则提出了更大的挑战。

因此想要更好地设计语音交互,我们还需要不断补足知识,提升自己的综合能力,并在实际过程中摸索学习,逐步去完善体验,总结沉淀。

视觉设计师

邓泽武

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190218G0GOKQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券