前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >忘了Siri吧:这里有一种机器人说话的新方法

忘了Siri吧:这里有一种机器人说话的新方法

作者头像
新智元
发布2018-03-13 17:28:58
7310
发布2018-03-13 17:28:58
举报
文章被收录于专栏:新智元新智元

电影《她》中的Samantha,聪明、精力充沛、有时候还会显得郁郁寡欢。和Samantha说话是一件很方便的事情,她像是有性格一样。

这部2013年由SpikeJonze导演的电影中,带来了这样一个AI,吸引了很多人的注意。这不只因为它有相当于一千个IBMWatson的知识基础,也因为与Samantha的对话就像是与一个亲近的朋友在闲聊一样。

在过去的几年里,来自乔治亚理工学院的机器人研究者CrystalChao博士和AndreaThomaz教授发明了一种新方法来将人性和性格植入到人类与机器人的对话中。它从重新思考我们与机器交谈的方法开始。

重现咖啡屋中的交谈方法

你瞧,今天的AI对话系统,或者说聊天机器人,都遵循相同的工作方法。AI说一些话,然后人类说一些话,然后AI再接着说一些话……这就像在用对讲机交流,每段信息都要有明确的开头和结尾。

但人类其实并不是这样交谈的。当两个人开始闲聊时,他们的交流里有许多只说了半句的话、打断别人、笑起来、说“唔唔”之类的时刻。所以Chao和Thomaz工作的第一部分是建立一种新的方法来为与AI的交谈建模。他们摆脱了我们今天看到这种正式的一来一回的对话方式。他们重现了在咖啡店里人们闲聊的交谈。

它的作用原理是这样的。对于你们中的程序猿们来说,你们一定知道互斥锁(mutex)的概念。互斥锁是一种获取共享资源读写权限的方法,所以同一时间只有一块代码能访问这个共享资源。

在人类与机器人的对话中,共享资源就是“对话权(conversationalfloor)”,或者说说话回合。同一时间里只有一个人可以掌握对话权、说话(否则你们说的话会互相覆盖)。

通过在对话权没有人控制时(也就是说,没人说话的时候)获取控制权,人类和机器人都能在交谈中插入自己的评论,自然地将对话带往新方向,而不是等待对方的整个回合结束。

忘了你和Siri的交谈吧,在那里你的话总是由“bing”一声开始到“ba-ding”一声结束。Siri(还有Google Now,Cortana,以及其他语音助手)在语音识别、自然语言处理和语音合成上都带来了很大的进展。但要让人类和机器人的对话变得更好的话,我们不仅需要改善机器人说的内容,还有机器人说的方式。我们需要的是,让这些交互变得更像《她》中的动态对话。

依托于即兴剧剧院中的小技巧建立性格

Chao工作的第二个部分包括了调整机器人说话时的性格,他使用了简单的动态和计时方法。这就像,Samantha可能在某个时刻表现得坚定、外向、活跃,之后某个时候聆听问题时她可能会变得更被动而有共情能力。

但这些性格特点要怎么注入机器人身上呢?Chao告诉我们,灵感来自于艺术作品:

“这个工作的灵感实际上来自于和乔治亚理工学院另一个小组的交流,他们在为一个即兴剧的剧院设计电脑系统!我们都在研究怎么让交互的主导权通过线索表现出来。有一些是非语言的线索,比如身体姿势,但大部分的对话主导权是表现为一个对话的参与者在多少时候抓住并且掌控着话语权。

“一个参与者在对话中是变得更主导、或者更被动,主要基于她有多频繁地打断自己或者别人的话、她说话的回合时间有多长、她说话回合之间的间隔时间有多长,等等。这些线索也会被更多的人观察注意到,就像女性通过改变她们的交流方式来争取在工作场所的平等权利。”

在这些对即兴剧剧院的讨论的基础上,Chao设计了一系列她可以调整的参数来让机器人表现出更主动或者被动的态度:

· 机器人是否一等到没有人说话的时候就开始说话?

· 它会在别人说得太久时打断他们吗?

· 它允许自己说话时被打断吗?

· 它是否可以接受冲突——同时有不只一个说话者——然后可以接受多长时间的冲突?

· 经过多长时间的沉默以后它会挑起对话?

· 在它自己的句子之间有多久的间隔?

· 它会给出多少反馈,比如点头或者“唔嗯”?

· 它是否会等到人类望向它才开始它的说话回合?

为了测试这个系统,Chao创造了两个实验情景,其中一个情景机器人使用主动倾向的参数,另一个情景机器人保持被动倾向的参数。

下面这个视频表现了这种交互。为了简单化,这里的机器人像婴儿一样说的是“祖语(protolanguage)”(不要尝试理解它说的这些话,它主要是类似婴儿的喃喃自语),但这样的实验允许研究者们把焦点放在特殊的事情上,比如交互的时间和动态性。

Chao发现,通过简单地使用主动倾向的参数,机器人就让人感到更外向了。当他们使用被动倾向的参数时,人们偏向于使用“腼腆”之类的词语来描述这个机器人。

“当机器人活跃的时候,人们偏向于对机器人做的任何事都作出回应,说出‘哇!’,‘好样的!’,”她说,“当机器人变得相对被动的时候,人们觉得有义务更主动。他们教机器人关于某些物品的知识,或是讲述自己的故事给机器人听。”

Chao也警告道,带给机器人植入性格的时候,需要万分小心。主动倾向的参数并不一直像他们预期的一样会带来一种“外向”的性格,有一些参与实验的人用“迷糊”或是“冷淡”来形容面前的机器人。

她解释道:“总体来说,我们预期当机器人更活跃、掌握更多说话回合时,人们会觉得它更外向并且乐于社交。从某种程度上来说这是正确的。当它极度活跃的时候,这个机器人实际上就会表现得非常以自我为中心,好像它一点也不在意与它说话的人就待在那里、没有怎么参与进来。这事实上是有意义的:这有些像与一个只关心自己的人在交流,他一直在滔滔不绝地说关于自己的事。这就是为什么需要平衡主动倾向与被动倾向。”

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2015-11-26,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 新智元 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档