专栏首页携程技术干货 | 携程度假智能客服机器人背后是这么玩的

干货 | 携程度假智能客服机器人背后是这么玩的

作者简介

雷蕾,携程度假研发部资深算法工程师,负责智能客服算法工作。

鞠剑勋,携程度假研发部算法经理,负责智能客服、知识图谱、NLP算法等工作。

随着人工智能的发展,人机交互技术愈发成熟,应用场景也越来越多。智能客服是人机交互在客服领域的一个应用,服务于客人以及相关的客服人员。本文将介绍智能客服在旅游场景下的主要技术和应用。

当前度假的智能客服主要用于C端(客户端)面向客人,以及客服端辅助客服的两个角色。

面向客服端的是智能客服助手,用于对话窗口的侧边栏,提示客服人员当前客人问题的答案,客服人员可视情况来采纳;而面向C端的智能客服则是直接服务于客人,回答客人问题。

智能客服又分为单轮问答的QA Bot和多轮对话的Task Bot,在携程的旅游场景下,以多轮对话的Task Bot居多。一般多轮对话的智能客服系统会切分为以下几个模块:客人的问题(Query)进来后首先经过NLU模块抽象化为客人的意图(intent)以及关键信息槽位(slot),意图及槽位传给DM模块后,经过DST、DPL、NLG模块返回答案。

• NLU(Nature Language Understand 自然语言理解),通过模型或规则的方式获取客人的意图和槽位;

• DST(Dialog State Tracking 对话状态追踪)存储对话状态,包括每一轮对话的意图以及已经抽取到的槽位信息、历史机器人的行为;

• DPL(Dialogue Policy Learning对话策略选取),DPL根据DST传输的内容决策机器人在该轮的行为;

一、NLU

NLU模块基础功能是获取客人的问题的意图及槽位信息,在业务比较复杂的场景,相对应客人可能问的问题维度也会很复杂。如果答案涉及的条件很多的情况,往往单轮的QA无法很好的解决客人问题。因此在度假业务的场景下,多轮次的Task Bot会占大多数。

1.1 错别字纠正

原始语句中难免会出现错字,错字可能会改变最终输出的答案。在识别意图之前首先通过纠错模块对错别字进行纠正。

兼容速度和准确率考虑,纠正分为规则部分和模型部分,度假业务中涉及到的地点比较多,在规则部分就能够覆盖大部分错别字的情况。模型部分首先会经过一个CRF模型输出字级别存在错误的可能性,生成候选集后,通过语言模型计算候选集句子的置信度,重排序得到最终纠正的结果。

• 检查错误模型

,主要使用了五种特征向量连接后进入Bi-LSTM-ATT-CRF模型,得到对每个字是否错误的判断。

• 语言模型

计算候选集替换为该字的情况在语言模型内的得分,文本转为特征向量后经两层向前和后向前的Transformer,最后全连接计算softmax。

1.2 意图识别

意图实质上是对客人问题的抽象化,比如常见的客人问及“这个产品多少钱?”,可转换为“询问价格”意图。而在直接服务客人的C端上,对回答答案准确率有较高的要求,高质量的服务背后首先是高准确率,而且通常在设计意图前期会存在意图训练语料不足的问题,因此一个高准确率并且弱监督的意图识别模型非常重要。

意图识别模型

意图识别模型整体采用上图的类似matching network框架,每个意图会有一个类别表示

,新的query经计算获得其句向量

,通过计算和每个类别的相似度得到该客人问题的意图。

当前的意图识别模型,相比于传统的文本分类模型,准确率更高,标注量更少,同时更方便迁移到多意图的情景。

在训练阶段,共有已知C个类别,每个类别N个样本,语句

经特征向量经过Bi-LSTM层后再通过Transformer-Attention把一句话映射为一条向量

,最后经胶囊网络获得每个类别的类别向量

。每个训练语句

得到句向量

后,再通过Bilinear-Function-Sigmoid计算

的相似度得分,最后采用二分类的对数似然损失函数计算损失。

模糊意图的处理

我们研究表明,客人在和机器人对话及与人对话的时候一些行为习惯是不同的。在面对机器人的时候,客人倾向于把机器人作为一个“搜索引擎”,常常输入关键词来获得回答,但关键词的信息不完整,通过模型或模板都无法返回切合的意图。针对于此,我们采用了“联想问”和“猜你想问”的功能来引导客人的提问方式。

• 联想问

客人在聊天输入栏输入问题的同时,显示相关的一些问题以供客人点选,由于是实时显示,对速度的要求较高,这里我们使用的是检索算法计算文本相似度。

我们会为每一个意图人工设置一些用户常问问题,当用户输入的时候,我们会用文本相似度的算法,算出和用户输入最接近的三个常问问题,提示给用户供其选择。

• 猜你想问

对于“猜你想问”功能,主要是处理问句过短的语义不明的情况。举个例子,在签证领域,客人会输入“照片”,而和照片相关的意图有“是否需要照片”、“照片要求”、“照片尺寸大小”等等能够涉及到的十几个意图。在触发“猜你想问”后,会返回4个最关联的问题供客人点选。

在使用“猜你想问”和“联想问”的机制后,可以引导部分客人的用户输入习惯,提升单轮次下信息输入的完整性及纯净度。

1.3 发现新意图

一个新业务线设计意图的时候,不可能把所有会出现的意图都理清楚,而是循序渐进,逐步增加。业务人员本身对业务的熟悉程度可提供新业务线的意图大框架,在小细节上难免存在漏缺,或是因为实时政策的变化产生的新问题。

比如说,在今年六月份大陆禁止发放中国台湾自由行签证,这段时间就新产生了很多类似于“已办的中国台湾签证是否还可使用”、“是否还能办中国台湾G签证”等这些新的客户问题。

层次聚类

我们采用的是对原始问题聚类的方法,把相似句聚集在一起。经过数据预处理后,生成句向量,第一层使用高斯混合得到一个初步的聚类结果,再通过规则判断是否需要再进行一次聚类,随后在第二层使用OPTICS聚类。

在用算法发现意图后,并不会即刻投入使用,而是业务做重审确定,整体上新意图的定位在于辅助业务对意图体系的完善。

1.4 槽位抽取

在Task Bot中,槽位信息抽取主要是服务于检索答案。比如签证一个常见问题“办签条件”,需要确定客人的办签国家、户口所在地、居住地等信息后才能给出最终回答。

有时客人的问题中直接会涉及相关槽位,目前槽位抽取采用的是规则+模型的方式。在实际应用中,规则能够覆盖70%的情况,剩下的则由模型来负责。

在度假业务里需抽取的槽位词有一个明显的层次关系,比如地点-送签地、地点-办签国家、职业-在职、职业-自由职业等,在模型的设计上会先抽第一层,第二层才是对最终结果的二级识别,通过多任务的学习,实际上每一层的任务是在对特征进行自动抽取。

大型的语言模型,比如说今年大热的BERT,在很多NLP任务中大放光彩。在这个词槽抽取任务中,语句中会先经过BERT得到字向量

后,第一层经Bi-LSTM-CRF模型得到第一类的结果

以及Bi-LSTM的编码结果

会映射为对应的类向量

,经

连接后进入第二层Bi-LSTM-CRF后得到最终的词槽。在加入语言模型后,对于语料比较少以及地点比较多的情况提升会比较大,尤其是一些语料中没出现过的地点,加入语言模型后也能识别出来。

二、对话管理系统

对话管理系统模块主要负责对话状态追踪DST(每轮意图、槽位的存储)、对话策略选取DPL(反问或给出答案)、答案生成NLG。在这部分接收NLU识别的意图和槽位结果,DST把对话状态信息发送给DPL,DPL根据知识库中的规则返回机器人在下一轮的决策(回答问题、反问或其它操作)。

三、智能客服平台

在整体上,智能客服业务和技术的部分是解耦的。业务相关信息的设定和操作都是通过智能客服平台,包括不同业务线的意图和词槽的设定、答案配置、数据审核、测试、标注等。新建一条业务线的智能客服应用,只需要在平台上新建项目,输入设定的意图、对应的语料、必要的槽位和对应的答案。

此外,平台上的答案配置也很灵活,可以是固定回答,可以是知识图谱的schema,可以是外部的接口,或是随不同词槽设定的回复等等。

四、结语

以上是度假人机交互的主要技术和成果,目前我们已经完成了一个智能客服项目落地的闭环,其中还有很多内容可以持续完善,比如多轮的意图识别、更多主动对话的探索等等。

未来的智能客服机器人将往多模态和多语言方向发展,支持语音和图像等模态的解析,支持英法日韩等多国的语言。智能客服还将提供主动服务模式、人机协同模式、群聊功能等多种模式。此外,采用大规模挖掘和生产的方式降低人工标注成本也是未来的主要方向之一。

【推荐阅读】

本文分享自微信公众号 - 携程技术中心(ctriptech),作者:雷蕾/鞠剑勋

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 旅游业休克:“云旅游+直播买货”急救

    在国外,欧洲最大旅游公司途易不堪疫情重创计划裁员8000人,裁员数量占到了其员工总数的10%以上。同时,东京工商调查的统计显示:疫情导致的破产东京企业数量在4月...

    刘旷
  • 一部手机智游海南,海南智慧旅游新格局正在形成

    打开“智游海南”APP,从查询旅游攻略、经典线路、热门美食到购买景区门票可一站式解决;进入景区不用再排长队,扫码或者刷脸就可进入,有些游玩项目还可在手机上提前预...

    腾讯文旅
  • “智慧旅游”成五一假期“标配” 新业态助力文旅消费有序复苏

    “五一”假期大幕落下,作为我国疫情防控常态化之后的首个5天长假,今年“五一”,不少民众都选择外出游玩放松心情。来自文化和旅游部发布的数据显示,5月1-5日,全国...

    腾讯文旅
  • 活动推荐 | 全球AI技术开放日,7月14日上海(含优惠码)

    携程技术
  • 携程:短暂春天能否冲破漫长寒冬?

    刚成功赴港二次上市,就迎来了五一小长假,主打在线票务、旅游、酒店服务的在线旅游平台携程迎来全新增长期。

    刘旷
  • 10大互联网危机公关事件:什么才是解围的正确姿势?

    信息时代,任何公司的变化都会在网络上得到迅速传播和扩大,危机公关,现在就是这么重要。我们数出了从2014年中到现在这一年左右的时间里,互联网公司曾经历的10件影...

    华章科技
  • 99%的程序员都会遇到的瓶颈(文末送福利)

    程序员的瓶颈是什么? 要回答这个问题,并不简单。不过这也是确确实实存在的现象。 很多人程序员说,30岁以后怎么办?上有老下有小,背着房贷车贷消费贷,经常加班没时...

    WeTest质量开放平台团队
  • 上班第一天,人工智能的各路“谈资”已为你备好

    镁客网
  • 百万网红带货忙,十万黑产敛财狂

    引子:直播带货爆发背后是黑产的狂欢 2020年初突如其来的新冠疫情,线下购物和传统电商需求萎缩,而短视频+直播带货模式成为了零售行业大风口。与此同时,防水墙却发...

    腾讯防水墙
  • 疫情砸场,电商后浪有多强?

    电商虽然也艰难,但疫情期间无法出门只能网购,疫情过后网购习惯得以保留,所以同比去年仍然保持正增长。有人还说「新冠帮了电商的忙」。这真能算帮忙吗?

    用户1569917
  • 智能合约和 DApp

    2017年11月份和2018年5月份的技术雷达,都将Ethereum for decentralised applications. 放到了 Technique...

    lambeta
  • 携程进入新周期

    在那个疫情突然来袭的时候,一切都是渺小的。纵然是头部的企业,亦未能幸免。时至今日,我的脑海里还在浮现携程CEO孙洁接受采访时痛哭流涕的画面,可以想见的是,这场突...

    孟永辉
  • 呐!这份区块链藏宝图,送你了;干货满满,建议收藏哟!

    一年来,区块链大本营(blockchain_camp)始终专注于技术与应用的探索与报道,不仅倾力打造「智变」、「人物志」、「1分钟链圈」三大栏目,而且也不断向读...

    区块链大本营
  • 连快播王欣都要做区块链,蚂蚁金服为什么不碰ICO?

    2月7日,快播CEO王欣出狱,在与58同城CEO姚劲波、YY董事长李学凌、小鹏汽车创始人何小鹏等昔日好友相谈甚欢后,王欣透露接下来要从区块链再出发,这个决定让许...

    罗超频道
  • TGC小程序---首个智能印章小程序

    有幸参与了今年腾讯游戏嘉联华(即TGC),现场出现了一个挺奇特的小程序。 ? 它是服务于线下的,主要服务于2017年腾讯游戏嘉年华现场展区的卡片收集活动。 ? ...

    花叔
  • Podcast脱口秀重磅上线 | 听数据大咖们把枯燥的人工智能Paper花式聊出来

    大数据文摘
  • 百名开发者的48小时:高精度智能盘库、猜拳的Pepper,艰难的智能垃圾分类和AutoNLP探索

    8 月 29 日上午,WAIC 黑客马拉松与世界人工智能大会开幕式同时启动,在张江人工智能岛火热开赛。作为世界人工智能大会期间唯一的一场黑客松,该大赛由机器之心...

    机器之心
  • Super快报第21期:平板手机还是手机平板

    1、8寸手机来了:平板手机? 三星昨天正式发布Galaxy Note 8.0,8英寸1280*800分辨率TFT屏幕,1.6GHz Exynos 4四核处...

    罗超频道
  • 京东突然宣布一个消息,一场大风暴即将到来!

    今天一早的北京市海淀区,20多台京东配送机器人整装待发。随着调度平台发出命令,首批载有618订单的配送机器人自动发出。

    刘盼

扫码关注云+社区

领取腾讯云代金券