首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >降低语音代理不必要澄清提问的新方法

降低语音代理不必要澄清提问的新方法

原创
作者头像
用户11764306
发布2025-12-28 18:18:43
发布2025-12-28 18:18:43
170
举报

降低语音代理不必要澄清提问的新方法

当两个人在嘈杂环境中交谈,其中一人若未听清或理解对方意图,很自然地会请求澄清。语音代理(如某中心的Alexa)也是如此。为了避免基于不准确或不完整的理解采取潜在的错误操作,Alexa会提出后续问题,例如询问设定的计时器应是15分钟还是50分钟。

通常,提出此类问题的决定基于机器学习模型的置信度。如果模型以高置信度预测出多个相互竞争的假设,澄清性问题可以帮助在其中做出选择。然而,我们对Alexa数据的分析表明,77%的情况下,即使其他假设也获得了高置信度分数,模型排名第一的预测仍然是正确的。在这些情况下,我们希望减少提出的澄清性问题数量。

上周,在IEEE自动语音识别与理解研讨会(ASRU)上,我们展示了一项研究工作,试图通过训练一个机器学习模型来判断何时真正需要澄清,从而减少不必要的后续提问。在实验中,我们将我们的方法与基于置信度阈值和其他类似启发式方法决定是否提出后续问题的方法进行了比较。我们发现,我们的模型将澄清性问题的F1分数提高了81%。(F1分数综合考虑了假阳性——此处指本不需要提出的问题——和假阴性——此处指本应提出但未提出的问题。)

HypRank模型

在大多数语音代理中,用户语音的声学信号首先传递给自动语音识别模型,该模型生成多个关于用户所说内容的假设。排名靠前的假设随后传递给自然语言理解模型,该模型识别用户的意图(用户希望执行的操作,例如“播放视频”)以及话语中的槽位(意图应作用于的实体,例如“视频标题”,其取值可能为“哈利·波特”)。

在我们的论文中,我们所考虑的设置是:ASR和NLU模型生成的假设会传递给第三个模型,称为HypRank。HypRank结合了ASR、意图分类和槽位填充的预测结果与置信度分数,以及上下文信号(例如特定用户启用了哪些技能),以生成不同假设的总体排名。

采用这种方法,模糊性可能来自三个方面:ASR分数相似性、意图分类分数相似性以及整体HypRank分数相似性。在传统方案中,这些分数中任何一个的微小差异都会自动触发澄清性问题。

澄清与否

相反,在我们的方法中,我们训练了另一个机器学习模型来决定是否需要提出澄清性问题。除了ASR、NLU或HypRank分数的相似性外,该模型还考虑了两个其他模糊性来源:信噪比和截断的话语。截断的话语是指以冠词(如“一个”、“这个”)、几个所有格代词(如“我的”)或介词结尾的话语。例如,“Alexa,播放‘Hello’ by”就是一个截断的话语。

作为输入,模型接收排名第一的HypRank假设;任何在其他三个衡量标准中分数足够相似的其他假设;信噪比;一个指示该请求是否为重复请求的二进制值;以及指示五种模糊性来源中哪些适用的二进制值。

输入假设的数量可能因适用的模糊性类型而异。因此,所有非排名第一的假设的向量表示被组合起来形成一个摘要向量,然后与其他输入的向量表示进行拼接。拼接后的向量传递给分类器,由分类器决定是否发出澄清性问题。

实验

据我们所知,目前没有现成的数据集包含根据准确性标注的多个ASR和NLU假设。因此,为了训练我们的模型,我们使用了由某中心同事去年在NeurIPS人机交互对话系统研讨会上提出的模型自动标注的数据。他们的模型结合了人工标注的数据和根据用户反馈标注的数据进行训练,这些用户是在Alexa交互后被专门询问是否对结果满意。我们使用该模型对更多话语进行了标注,无需人工参与。

由于数据集中的所有样本都至少具有一种模糊性,我们的基线是在每种情况下都提出澄清性问题。该方法的假阴性率为零——它从未在必要时未能提出澄清性问题——但可能具有很高的假阳性率。我们的方法可能会增加假阴性率,但F1分数的提高意味着它在假阴性和假阳性之间取得了更好的平衡。

研究领域:对话式AI

标签:自然语言理解, 自动语音识别

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 降低语音代理不必要澄清提问的新方法
    • HypRank模型
    • 澄清与否
    • 实验
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档