哈尔滨工业大学刘挺:独家解读人机对话技术的进展 | CCF-GAIR

AI 科技评论按:2017 年 7 月 8 日,由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的全球人工智能与机器人峰会(CCF-GAIR)进入第二天。在智能助手专场,来自哈尔滨工业大学的刘挺教授为我们带来了题为“人机对话技术的进展”的主题演讲。

刘挺,哈尔滨工业大学教授,社会计算与信息检索研究中心主任。多次担任国家863重点项目总体组专家、973项目专家组成员、基金委会评专家,入选科技部中青年科技创新领军人才。主要研究方向为自然语言处理和社会计算,是国家973课题、国家自然科学基金重点项目的负责人,曾获国家科技进步二等奖、省科技进步一等奖、钱伟长中文信息处理科学技术一等奖。

以下内容是AI科技评论整理的刘挺教授的报告,有删减:

感谢主办方的邀请,我是来自哈尔滨工业大学的刘挺,我的题目叫“人机对话技术的进展”。

人机对话概述

下面是人机对话的基本框架,可以通过语音输入和输出,也可以通过文本直接交互。其中包括三个重要的模块:语言理解、对话管理、语言生成。我后面的演讲会提到这几项技术。

作为一个学者,我可能不如大家对产业界理解得这么深入。从我的角度观察,人机对话走过了三个阶段:第一,语音助手时代;第二,2014年进入聊天机器人时代;第三就是2016年进入场景化的任务执行。

语音助手时代

2011年,乔布斯临终前在iPhone4S中推出Siri,当时的技术还是很不成熟。2012年,中国的各个厂商纷纷效仿做语音助手。2014年,个别企业纷纷把语音助手团队解散。主要原因:第一,技术尚不成熟,听得见,但听不懂。以至于很多本来严肃的服务变成对语音助手的调戏;第二,语音也并不总是最自然的沟通方式,它需要私密的环境,有时候还需要图像交互界面进行配合。

聊天机器人时代

2014年微软推出小冰,干脆就来聊天和娱乐,放弃语音使用,直接用文字进行沟通。这时候深度学习被充分运用,技术水平有提高,难点在于对语境的建模和机器人自身建模方面。比如你问机器人:“你今年多大了?”,“我5岁了”。但说“你结婚了吗?”,“我结婚10年了”,他自己会发生矛盾。 应用上,用户留存率并不是很高,虽然用户量大,但持续跟机器人聊下去的并不多。

现在有人反思做聊天没意义,我认为还是有用的。主要有三方面的作用。第一,建立人和机器之间的信任。第二,聊天过程中,聊天机器人和搜索引擎相比有一个大的优势,搜索引擎只能被动观察用户的输入,但机器可以主动向人发问。比如机器人问人喜欢看电影吗,回复喜欢。机器人再问喜欢哪一类的,回复喜欢看动作片,机器人立刻推荐一个成龙的动作片过去。第三,情绪抚慰功能,机器人的优点是随叫随到、嘴严、可定制。

场景化的任务执行时代

现在处于实用化的努力阶段,通用的做不到,既可以回退为娱乐化也可以回退在特定场景下使用。这一阶段的特点是:将人机对话局限在特定场景,进一步降低用户期望值;利用场景约束,提高语义消歧能力。当你坐在电视机前想点电视节目,能发出指令,并且发出指令的方式是有限的。存在的问题有两个:一是场景切换,需要重新部署。二是工程化色彩严重,不能够一揽子解决问题,研发成本增高。

当今人机对话系统功能:

当今人机对话系统主要有四大功能。一是聊天。聊天的目的是要让人和机器尽可能的多聊下去,去消耗时间。另外知识问答、任务执行、推荐这三个是比较严肃的功能,都是以快速的结束聊天为目标。

人机对话系统又分下面这三方面:自然语言理解、对话管理、自然语言生成。这里面聊天、知识、任务、推荐,都有各自相应的研究点。具体内容请看PPT。

人机对话技术进展

现在人机对话技术到底到了一个什么程度,主要从前面说的四方面选出两个最重要的:聊天、任务执行。任务执行不同企业的叫法不一样,我们叫任务。聊天是没有明确目标的,任务是定机票、定餐馆等。聊天搜索空间比较大。

聊天机器人最早出现是在上世纪60年代,有人研究出一个能够和精神病患者聊天的机器人,效果挺惊人,此后不断的发展。腾讯的小Q机器人、还有微软小冰、Tay,这都是聊天机器人的系列产品。提到聊天,首先会想到根据以前的聊天记录,通过搜索,就可以回答一些问题。

单轮对话生成的进展比较技术化。发展趋势是不仅仅通过算法解决问题,而且要确定一个主题,借用外部资源,把话说得更丰满。

多轮对话中,聊天和搜索有很大的区别。搜索也开始启动多轮搜索,但是真正的多轮是在聊天当中体现的,要有多个回合,这里面会产生指代、省略等等。如何在多轮对话里让人感觉这是一个完整的对话很值得研究。这里面出现很多技术,包括深度学习和强化学习的融合。

智能助手有一系列产品,从苹果、微软,到Facebook、亚马逊。现在很多大企业不但自己做智能助手,而且提供对话平台。对话可以称为对话操作系统或者对话人工智能。微软在研发,很多企业在收购,百度既研发又收购,推出面向中小企业的平台。

任务型对话系统的语言理解部分,通常使用语义槽来表示用户的需求,如出发地、到达地、出发时间等信息。因此可以使用序列标注模型来抽取语义槽。CRF (条件随机场)是过去经常使用的序列标注模型,但是受限于马尔科夫假设,它无法很好的处理长距离依赖问题。随着深度学习方法的流行,人们使用循环神经网络,如双向 LSTM 来解决长距离依赖问题,同时还避免了繁琐的特征工程工作。最近,人们将这两种方法进行融合,即双向 LSTM-CRF 模型,进一步提高了槽填充的准确率。

对话管理指的是根据上一步语言理解步骤识别的语义信息,决策系统下一步所需采取的策略,如追问、澄清还是给出结果等。最简单也是最常用的方法是采用基于规则的方法,即根据不同的情况人工制定对话树,这种方法需要耗费大量的人力,而且可移植性也比较差。有指导学习的方法只需人工针对一些具体的样例,标注对应的回复策略数据,然后就可以交给机器学习了。但是这种方法需要针对每条对话进行标注,标注难度很高。近年来,采用强化学习的方法成为研究的主流,该方法无需逐条标注,只需要将整个对话的最终结果作为奖励,系统就可以学习到最优的策略序列。

最后对话生成模块根据采用的不同对话策略,给出不同的系统回复。最简单就是采用基于模板的方法,但是该方法很难在不同的领域之间迁移。后来人们采用基于语言模型的方法,直接从语料库中学习回复的语言。近年来,深度学习中序列到序列的方法为对话生成提供了一种新的思路,不同于机器翻译等任务所采用的序列到序列模型,这里原序列是上一步输出的对话策略,目标序列则是系统的自然语言回复。该方法具有学习简单,生成的语言自然、多样等优点。

关于“笨笨”机器人的介绍

下面介绍一下我们实验室研制的一个系统,叫“笨笨”。我们不敢叫“灵、百灵”,只能承认自己笨,进一步降低用户的期望值。当用户拿着一个手机以为什么都可以问的时候,他一定会失望。我们这个研究中心是哈工大社会计算与信息检索研究中心,这是我们的公众号,有上万人关注。功能包括聊天、知识问答、任务执行、推荐。

生成式对话模型往往存在一个问题——语义相关性差。比如说问机器你今年多大了,回复说不知道。这里面产生问题的原因,从技术上讲是生成话的第一个词会产生概率很高的通用词。比如“我”、“你”。

我们采用了专门的Learning to Start模型去生成,大家可以对比一下。

单轮对话也采用主题规划的方式,进行两阶段的生成。先规划,然后响应内容。

多轮对话是基于DQN进行。这个优化和任务执行的优化正好反过来。聊天的优化是要尽可能让这个聊天能继续下去,让话题轮数更多。

下面是“笨笨”聊天的一些对话(见PPT),比较好玩,大家可以下去自己玩。

下面是知识问答。在各个具体的问题上,都在使用深度学习技术,知识问答方面也不例外。

这是任务执行的系统框架(见PPT)。在任务执行方面,哈工大最近也开发了一个系统,这个系统是一个平台,各位可以在里面添加你的特定领域要解决的一些问题实例,添加若干实例之后,系统会帮你训练出一个特别实用的场景任务执行系统。这个推荐也被嵌入到人机对话中,有些创业公司专门做人机对话领域的推荐。

在“笨笨”跟你聊天的过程中,可能跟你推荐产品,这就是营销机器人。营销机器人会先和你聊天,建立信任之后推荐产品。还有服务于售后的客服机器人。

人机对话评测介绍

最后讲一下人机对话评测,任何一项技术要想进步,特别依赖于它的目标,就是怎么评测这项技术,这项技术到底是前进还是后退了。在人机对话方面的评测比问答系统难。问答系统是单轮的,我问毛泽东出生于哪一年。你答出的是准确答案,就算成功了。但是人机对话里,一轮过后,就会分岔,一旦分岔了就没有办法做标准答案进行评测。现在国内在这方面的处理也是评测驱动。哈工大也在主持若干评测。以前我们也参加过美国的一些评测,现在有一些在参加日本NTCIR的评测。我们的理念是中国人的评测要由中国人引导。

我们主持了首届中文人机对话评测,由张伟男担任主席。我们分两个任务,一是用户意图分类,区分到底是聊天还是任务,如果是任务,到底想完成一个什么样的任务。二是特定域任务型的人机对话评测。比如定机票,问两句话,会出现分岔,很难展开评测。解决办法是人工评测,先给一个问题的描述,让人根据这个描述和不同的机器人进行对话,看看哪个机器人可以在最短的轮数内把这个问题解决掉。

国际上,2017年也在开始组织评测,在自然语言处理最前沿方面,国内学者和国际学者是齐头并进的。在斯坦福主持的英文阅读理解评测中,很多巨头都有参加。排第一位的是微软亚洲研究院,第二位是哈佛大学一个研究实验室。即使在英文上,国内也并不落后。

未来的挑战

最后概括,最主要的技术挑战在两方面。

一是聊天机器人未来有待解决的问题。我估计在座的各位没有谁愿意和一个机器人持续聊超过一周。另外还有情感,对机器人说考试不及格,怎么分析是不是伤心的情绪,还有用户画像,回复质量,多样性,个性化等的研究。机器人怎么主导话题,如何是让机器人具有各种各样的性格,为每一个用户定制多个不同性格的机器人,包括在游戏世界里,让机器人扮演一些角色,能和人对话。还有基于主题的上下文生成、基于用户的情绪反馈。用户一旦骂你或者不跟你聊了,说明你回答问题的不好。

二是任务执行中有待研究的问题。比如任务之间的切换,目前即使通过工程手段把一两个场景做对了,扩展到其他地方还是很难。

什么时候人机对话才能取得真正的突破,主要取决于以下几点:自然语音处理技术的突破、机器对情境理解的进展、机器推理能力的提升、文本生成技术的进步等。

人机对话是自然语言处理发展的一个高峰,它的发展和自然语言处理的发展是密不可分的。我认为自然语言处理有四个阶段。从形式匹配到语义匹配,现在到文本推理,再下一步会到言外之意。一个小女孩对男朋友说“讨厌”,这句话怎么理解,需要一些文化的背景。现在已经有人在研究隐喻这方面的工作。

最后介绍一下我们实验室在布局的工作,研究方向如PPT所示。

我们实验室有70多人的科研团队,在LTP、句法分析方面我们始终保持国内甚至国际领先地位,前一段时间谷歌推动的45种语言通用句法分析评测,哈工大取得第四名的成绩。很多企业在和哈工大合作,我们也希望能够有机会和在座的其他企业建立更多的合作关系。

我今天的演讲就到这里,谢谢大家!

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-07-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

快讯 | 教育部深度学习师资培训,这次合作者是百度和北航

1035
来自专栏养码场

爬取某招聘网站、近2万+程序员的工资单,得到以下5点涨薪结论!

某一技术人爬了某招聘网站,获取近一周的程序员工资18275条。其中,有工资的17628条(北京4892,上海5073,广州3386,深圳4277)。本文分别从工...

401
来自专栏AI科技评论

「一仆不侍二主」,高校教授也一样吗?

AI 科技评论按:学校的教授同时在企业和学校任职,每周一部分时间在企业、一部分时间在学校,到底是好事还是坏事?

592
来自专栏量子位

波士顿咨询报告:人工智能不仅会增加失业,还可能加剧社会不平等

李杉 编译整理 量子位 出品 | 公众号 QbitAI ? 多数经济学家都认为,机器人和人工智能的进步可能会在未来几十年引发更大的失业浪潮。但似乎很少有人思考这...

2314
来自专栏专知

王德华:中国科学院的研究生就应该做到优秀

每年的5月和6月间一般都是研究生学位论文答辩和毕业的时间,这段时间学生和导师都很忙。我们实验室今年增加了一个新的活动,邀请优秀毕业生讲述他们的趣事、乐事、难事...

1013
来自专栏新智元

【阿里算法专家】深度学习将业界技术迭代提升100倍,GraphDL 应用广阔

【新智元导读】IJCAI 2018 现场,阿里妈妈以 Ad Tech 为主题举办了 Workshop,阿里妈妈资深算法专家朱小强、高级算法专家林伟,分享了将深度...

953
来自专栏专知

【业界实战】小米大数据总监司马云瑞详解小米用户画像的演进及应用解读(附报告pdf下载)

【导读】2017年 11月4日,大数据系统与应用研讨会在中科院计算所举行。会议邀请了中科院计算所程学旗老师和其他来自联想、京东、美团点评、小米等一线互联网公司大...

6487
来自专栏量子位

谷歌开源了量子算法框架CIRQ,拥抱NISQ新时代

NISQ,是嘈杂中型量子 (Noisy Intermediate-Scale Quantum) 的简称。

643
来自专栏PPV课数据科学社区

重磅 | 283所高校获批数据科学与大数据专业,985/211高校仅占13%

月21日下午,历时近一年时间,教育部公布了2017年度普通高等学校本科专业备案和审批结果的最新通知,第三批大数据本科专业院校获批。 此次教育部最新公布的高校新增...

3176
来自专栏大数据文摘

人工智能专家成香饽饽 看各大公司如何挖墙脚

1757

扫描关注云+社区