近日,微软全球执行副总裁沈向洋、微软研究院首席研究员何晓东、微软(亚洲)互联网工程院副院长李迪(小冰项目负责人)在预印本网站arXiv发布一篇论文《From Eliza to XiaoIce:Challenges and Opportunities with Social Chatbots》。
文章不仅清晰展现了聊天机器人的历史发展脉络,还提出了作者对于其现状及其未来进化方向的重要观点。以下为DT君经过整理之后的论文主要内容:
聊天机器人的类别
1、聊天机器人系统
在过去的数十年中,会话系统的研究和发展已经走过了很长一段路。不过,受图灵实验的启发,最早的聊天机器人的任务仅仅是和人类闲聊。它们是用文字或者音频来进行电脑程序,通过模仿人类在对话中行为以通过图灵测试。
最早被大家知道的聊天机器人是1966年诞生于MIT的Eliza。Eliza并不理解对话的内容,它只是通过模式匹配来寻找合适的回应,再进行组合。它只有非常有限的知识,因此只能与特定领域的人进行“交谈”。
其后的同类聊天机器人,不论是可以模仿交谈者情绪的Parry还是三次赢得Loebner Prize(最类人系统奖)的Alice,尽管这些聊天机器人都取得了不错的成绩,但是它们本质上仍然是基于手动编写的规则,因此只能在有特定限制的环境中出色工作。
2、任务驱动对话系统
和聊天机器人系统形成鲜明对比的是,任务驱动的对话系统是为完成特定任务而设计。这些系统通常在非常特定的领域应用。如用于订购机票的ATIS,它可以理解用自然语言表述的请求,比如查阅航班信息,并作出回应。
任务驱动对话系统一般包括一个自动语音识别器(ASR),一个口语理解(SLU)模块,一个对话管理器(DM),一个自然语言生成器(NLG)和一个文本语音转换器(TTS)。目前这一领域的研究更多集中在如何对整个系统进行端到端的整体优化。
3、智能私人助手
自从2011年苹果推出Siri,各个公司都开始推出自己的IPAs——微软的Cortana,谷歌的Google Assistant,Facebook的M,Amazon的Alexa,等等。IPAs从不同的传感器获得包括位置,时间,运动,手势等信息。同时,它也可以接触类型多样的庞大数据源,比如音乐,电影,日历,邮件等等。因此,IPAs可以提供跨越多个领域的广泛服务,甚至可以求助于互联网。它不仅仅被动回答用户的问题,也会主动进行提醒和推荐。
图 | 餐厅推荐与交通信息提醒
4、社交机器人
智能手机的普及和无线技术的快速发展使如今成为社交媒体的时代。社交聊天机器人应运而生。不同于早期的闲聊机器人仅仅用于闲聊,社交聊天机器人需要满足用户对于交流,喜爱和社会归属感的情感需求。微软的小冰正是开辟了这样一个全新的领域——它们的存在不是要回答用户的所有问题,而是可以与用户建立情感联系,成为一个虚拟的陪伴。
聊天机器人的全新领域
社交聊天机器人的吸引人之处不仅在于它可以对使用者的不同请求作出回应,更在于它可以和使用者建立起情感联系。自2014年5月问世以来,微软小冰已经成为应用最广为人们熟知的社交聊天机器人。它可以理解使用者的情感需求,并在对话中作出恰当的回应,以鼓励对话者。这些对话可以将使用者向积极乐观的方向引导,为其提供情感支持。同时,这样的对话也可以在使用者和机器人之间建立信任感,帮助小冰更加了解使用者,而在未来提供更好的服务。
图 | 微软小冰对使用者的鼓励
1、不同的效果衡量方式
不同于闲聊机器人,能否通过图灵测试并不能成为衡量社交机器人好坏的标准。不同于IPAs需要精确快速地回答用户的问题,效率同样也不能成为社交机器人的衡量标准。因此,新的衡量标准CPS(平均每次会话的对话次数)被提出。社交机器人是的目的是让使用者持续参与,因此CPS值越高,效果越好。事实上,利用这一参数,可以给不同的绘画系统进行分类。
图 | 不同对话系统的CPS值
2、IQ与EQ兼具的聊天机器人
被喜爱的情感和社会归属感是人类的基础需求之一。因此,让聊天机器人来满足这样的需求对于我们的社会就具有极其重大的价值。而为了满足这样的需求,社交机器人必须具有同情心,社交技巧,个性和一定的情商和智商。
同情心使它们可以理解用户。它们需要从对话中确定出用户的情感,并随着时间的推移来关注这种情感的发展,以理解用户的情感需求。对上下文信息进行合理的建模应用以及常识的储备都是十分重要的。
一个社交机器人也需要表现出相对稳定的个性,这样它才能从用户那里获得信任,让用户对谈话预设合理的期望。这里所说的个性包括年龄,性别,语言,讲话方式,态度倾向,知识水平,专业领域和一个合适的声音。同样,这些也需要不断从对话中学习,改进。
社交机器人需要拥有广泛的技巧来完成特定的任务。它们需要分析用户的请求并生成回复——是回答问题还是采取其它措施。IQ包括知识和存储模型。IQ不仅是多种多样技巧的基础,更是高EQ的基础。得到的结果需要被表示为对话这易于理解的形式。除此之外,它们还需要有能力开启新的话题。为了更有效的和使用者沟通,微软小冰不仅可以使用文字,还可以发送图片,语音等。
图 | IQ与EQ结合生成对话结果
3、整体架构
首先,系统有一个由多模型接口来接受用户输入——文字,图片或声音。然后,chat manager会将输入调度给不同的模块,来理解输入和生成输出。最后,chat manager会整合生成的结果来生成最终的输出。
图 | 整体架构图
Core-chat是社交机器人的核心模块,它接受文本输入并生成文本输出。它为系统提供了交流能力。它利用上下文信息来理解对话内容,同时侦测其中的情感信息,并以此推测用户的情感状态。为了更好的理解用户的特点和情感状态,它会为每一个客户保存一个概况,保存该用户的基本信息。而为了拥有常识知识,它可以利用Freebase和Microsoft Concept Graph。
输出的生成方式主要有两种——基于检索和基于生成的。前者将首先从存储人类对话中消息回复对的数据库中构建索引。而后者最近由于深度神经网络的利用取得了极大的进步。它通过编码——解码的神经网络,借助LSTM网络生成结果。
社交机器人还需要理解图片,因为它们经常在社交中被应用。除了识别物体,描述图片内容,社交机器人的评论还需要能够反映个人的心情,情感和态度。Visual Sense同样有基于检索和生成两种方法。前者借助卷积神经网络,后者则将其转化为一个图片到语言的生成问题。
图 | 对图片内容进行识别,描述,形成有个性的评论
微软小冰的未来
自小冰在中国的微信与微博与大家见面后,它已经成为了互联网的名人。新闻编辑,主持电视和电台节目无所不能。2015年,微软小冰登陆日本,2016年在美国与大家见面,2017年来到印度和印度尼西亚。在过去的三年中,小冰一直在进行技术更新,在中国的CPS逐年增长。微软小冰还可以生成更为复杂的表达,比如根据给定的图片写诗。在2017年5月15日,它发行了历史上第一本AI诗集,并在多本严肃的诗歌刊物上发表诗歌70余首,其能力得到了充分肯定。
图 | 微软小冰在中国应用中逐渐上升的CPS值
尽管以微软小冰的代表的社交机器人已经是神通广大,但是人类级别的智能,就像在人类间对话中频繁体现的那种水平,还远没达到。让机器可以理解人类的语言仍旧是人工智能领域一个基本的挑战。这需要在多个领域,尤其是人工智能意识和认知方面的重大突破。
-End-
参考:
https://arxiv.org/abs/1801.01957v1
本书灵感源于“TR35”,即《麻省理工科技评论》享誉全球的“35 位 35 岁以下科技创新青年”(MIT Technology Review 35)青年人才榜,如果你想一睹全球科技创新领导者背后的精彩事迹,你也一定不能错过这本书。
领取专属 10元无门槛券
私享最新 技术干货