语音用户界面(或VUI)是一种交互模型,在该模型中,人与机器进行交互,并至少部分通过使用语音来执行一组任务。
实际上,这种方式的交互式语音应答(IVR)系统在银行业和旅游业中已经得到了广泛的应用。这些系统主要依赖于语音生物识别来识别用户并使用语音作为主要交互模式完成的任务集。随着亚马逊Echo、苹果的siri 等产品的诞生,VUI发生爆炸,各大公司也开始尝试多媒体交叉设备的体验。
“治学先治史”,了解语音技术的过去点滴,大概会有些帮助。
早在1961年,IBM设计了一个名为Shoebox的实验装置,是由William C.Dersch开发的,大概是早期的语音识别设备。机器把声音转换成电脉冲可以识别出16个单词。在1962年西雅图举行的世界博览会上首次展示,这可能是自动语音识别(ASR)和自然语言理解(NLU)的起点,但只涉及第一部分的声音识别。对于纯语音用户界面,机器生成人声早在1939年或更早的时候就有了。
霍默·达德利(在新泽西的贝尔电话实验室)的Voder是第一款能够产生连续人声的电子化设备。1939年,阿尔登·P·阿玛涅克在《大众科学》杂志上写下了关于这一装置的文章。它是用真空管和电路制成的,是为了复制人类的声音。为了进行对话,机器操作员使用了一个像风琴一样的键盘。十三个黑白键产生了所有的元音和辅音,另一把键控制着合成声音的扬声器响度。脚踏板改变了音调,使同一句话可以陈述句或疑问。大约一年的培训,操作员就能使机器说话,想起来也是一个有意思的东西。
2000年初,IVR系统成为主流。任何有电话的人都可以预订飞机航班,在账户间转账,查找当地电影时间,听交通信息,所有这些都只使用普通电话和人声。
语音交互、增强现实和虚拟现实等技术或许已经存在或研究了相当长的时间。令人兴奋的是,它们最终在市场上广泛商用了,这就需要设计师和工程师来承担开发场景以解决用户日常问题的挑战。
语音助理已经风靡各地,为什么呢?它的优势有:
语音是人们交流的基本手段。其他形式的交流方式如写作、面部表情或手语,在所有文化中也都同样具有表达力,但人们主要还是通过语音来说服、告知和建立关系。语音助理能够在不同的场景和渠道中保持一致。
用户通常会就手头的特定任务进行语音对话。交互通常很短,来回的交互也很少。用户可以通过对话来完成一项任务,即使他们不忙,不能总是全神贯注。用户在通过GUI执行相同任务时会感觉到很多延迟或不爽,而对话将有助于减轻这种体验。
在语音识别中,得到对话所有的上下文几乎是不可能的。上下文大约分成三类:
从物理、情感和会话上下文中,可以创建一个关于会话内容的推理或得出结论,得出一个拟人化的结果。
对话的意图大约有两种,一种是目标反馈确定的,一种是不确定的,对于不确定的意图需要更多的用户选择。 也就是说,大约可以分为基于意图的对话和随机问答。基于意图的对话是为了完成一个目标或完成一个任务而进行的对话。心里有一个意图,需要助手的回答,这时只想完成一项任务。随机问答是指用户与助手进行交互时没有特定的意图。他们只是想和助手聊天,谈兴趣,也许是想更多的彼此了解,建立一种关系。
当然,语音交互有着自己的局限。在IVR中,很难暂停系统,相反,用户必须不断地进行交互,而视觉组件可以让用户以更轻松的方式继续交互。另外,是在公共场所使用方面的限制。用户可能不能在某些公共空间使用语音,因为这样做会侵犯用户的隐私。
人的一种主要行为,就把人的情绪联系起来,试图理解一个复杂的物体。不过,大多数消费者的底线是,更愿意与一个温暖的身体交谈,而不是与一台冰冷的电脑交谈,因而需要关注语音应答的多样性。
逐步披露是人机交互中常用的一种交互设计技术,通过减少混乱、混乱和认知工作量,帮助保持用户注意力的焦点。这通过只提供手头任务所需的最小数据来提高可用性。一般使用犹豫标记,或者增加短语询问。
给语音助理赋予人性化,可能需要一些因素:
模仿的行为可以与另一个人更相似,感知到的相似性可以作为基础。
基于语音的交互或语音检测依赖于一个设备,该设备有一个性能良好的麦克风来捕捉/记录用户的指令,可以参考过去一篇文字。
VUI与GUI成为人机交互规范的时候非常相似,设计人员需要清理混乱的逻辑,简化数据,并向用户提供更容易掌握的流程和解决方案。以电视遥控器为例,设备上有20-30个按钮时,操作起来就会非常困难,一个人很难理解所有按钮的作用。没有好的设计,技术就很难甚至不可能得到应用。
用户体验设计围绕着整个用户旅程展开,即回答用户对特定用例可以做什么,然后理解用户能够以无障碍和愉快的方式满足需求的最佳方式。
从一开始就不能决定只使用一个模态,但是设计者必须理解用户根据系统的输入和输出模态完成特定任务的需求。
对于具有图形用户界面的数字助理,当有动画选项时,这变得更有趣。在这里,助理会表现得像人一样;会倾听你的问题,思考,回答,开个玩笑,唱歌,表达悲伤和愤怒,还有很多其他的情绪。
多交互方式并存,形成了人机交互的领域。人机交互(HCI)已经存在了相当长的一段时间了。在20世纪50年代初,用穿孔卡片存储数据和输入,随着个人电脑的引入而发生了颠覆性的变化。20世纪80年代后期,几乎使世界上的每个人都成为潜在的计算机用户,也暴露了关于可用性的问题。
HCI整合了认知心理学、人工智能和思维哲学,以阐明系统化和科学化的应用,称为认知工程。它使具有概念、技能和远见的人能够满足人机交互的实际需求。
HCI 的设计有很多的经验和原则,对于VUI同样有着参考意义。例如,Ben Shneiderman 关于界面设计的8条金规:
又例如,Donald Norman的七个设计原则:
还有现在广泛使用的Nielsen启发式UI/UX设计原则:
创建一个平滑无缝且自然的 VUI 对于使用的人工智能产品来说至关重要。对VUI而言,也有着自己的设计技巧:
然而,“大道易得,小术难求”。行胜于言,努力去学习和实践才能得到更多的理解和认识。
(本文图片来自网络,如有侵权,联系作者删除)
参考资料