在现实应用场景中的对话智能系统实现的几个挑战

口语对话技术是以整体决策过程性能优化的思路,来处理非精确输入信息、语音和语言处理领域的一个新兴研究方向。虽然强化学习的基本理论用于任务型对话系统已经被学术界广泛接受,但对话智能并未达到实用水平,除了自然口语语义理解水平这个典型问题之外,在真实世界中,实现对话智能还有许多亟待解决的难题。

首先是对话状态和机器对话行为空间的规模问题。真实任务型对话系统的“状态”一般包括三个部分:用户意图、当前用户语义以及对话历史。对话历史可以简单地用任务语义槽的填充情况来表示(例如,每个语义槽定义“已确认”“未谈及”“正在进行”三个简单的可能取值),而前两部分通常以对话动作的方式表达。简单机票查询为例,如果只考虑一种对话行为,以及出发城市、到达城市、时间和日期4个语义槽,假定平均取值有50种,则每轮用户输入语义的种类可能有600多万个,再考虑用户意图及对话历史,这个状态空间的尺度将达到千万以上。与对话状态类似,机器可能产生的机器行为的空间也是巨大的。这就需要用一些结构化的方法来压缩对话状态空间和机器行为空间。一些语义本体结构的空间聚类压缩方法,如摘要空间算法等已被广泛采用,其有效性已在若干小规模实验室级的真实系统上得到验证,但对于工业级的真实对话系统,如何有效地处理大尺度的对话状态和机器行为空间的描述仍然任重道远。

其次是对话管理模块的测试评估与用户仿真问题。客观量化的测试评估指标是进行数据驱动的对话管理优化的前提。但前文提到的对话任务完成度指标还是一个实验室条件下的度量,真实使用的对话系统往往得不到用户的明确反馈,而且由于口语对话系统是集成了识别、理解、合成等在内的综合体,即使得到用户反馈,也很难确定这些反馈是否都是针对对话管理的评估。研究者试图采用设计用户模拟器的方式来解决这个问题。用户模拟器精确了解用户意图等信息,通过它与对话管理器的直接交互(以对话动作为接口标准),可以有效地优化对话管理器。这一思路类似AlphaGo中的自我对弈。但是,它需要对用户交互习惯进行建模,虽然也产生了如议程模拟等一系列算法,但由于语言的复杂性,用户意图模拟的难度依然很大,目前仍是对话技术研究中的难点。一般来说,用户模拟器也仅仅用于初始化对话管理的参数,使其达到基本的性能水平,之后仍然期望在与真实用户的交互中持续优化。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191212A07B8F00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券