解构：Google打电话幕后的人机对话技术

文章来源：企鹅号 - 沪江技术

在5月8日的Google I/O大会上，Google发布了一系列惊人印象深刻的智能技术。而其中可以全双工打电话（Duplex）的Google Assisstant则成为业界的热门话题，也在普通网民中激起无限想象。人类和机器的交流的自然流畅程度，除了电影中的表现之外，被真正拔到了新的高度。

“自然”是各路评论当中的一个普遍关键词。那么Google Assistant 的对话是如何做到如此自然的？TA 真的都听懂了你讲的东西吗？TA还能做别的吗？

沪江智能学习实验室对此进行技术分析和解读，尝试回答上述问题。

一、关于“自然”

我们首先讨论一下“自然”的含义。

当我们说一个Voice Assistant表现“自然”时，我们其实包含以下意思：

1. 对话的逻辑自然

“人工智能”与“人工智障”的笑话主要指的是很多聊天机器人产品的“答非所问”的毛病。人类对话是按照一定的逻辑进行多个轮次的信息交换。语义理解的错误或者对话策略的错误，都将使得对话的过程失去流畅。

2. 语音的韵律自然

多年来，语音合成技术的评价标准都包括“可懂度”和“自然度”，评价方法则是通过包括多个评价着的主观打分（MOS）。“Monotone”、“ Robotic”、“Flat” 是传统技术下语音合成效果的最为常见的评价。

当合成的语音在韵律方面（语调、语气）与我们的预期非常接近时，我们就很自然地认为合成的语音“很自然”。

3. 交流的过程自然

人类会使用特定的交流方式来使得对话过程礼貌、流畅、舒服、有趣。比如合适的问题、合适的响应（时间和内容都很恰当）、措辞的选择、内容表述的变化、语调的选择、情绪的表达等等。

优秀的话者还会尝试理解交谈的对方（人而非内容），从而调整对话策略的选择。

二、技术架构

构建做一个 Voice Assistant 需要融合很多方面的技术(Fig.0所示)，主要包括 (按流程) Speech Recognition(SR), Natural Language Understanding (NLU),Dialog Management (DM), 和Natural LanguageGeneration(NLG)等模块。要让 AI 能够迷惑大家的耳朵，误以为是人类，则需要这些模块共同的配合。

语音识别负责将用户的语音转换成机器可以理解的文字（尽管或有人尝试使用深度学习技术直接进行 Speech-to-Speech 的转换）。在这个转换过程中，信息是可能有损失的。技术优秀的 SR 可以做到 Word Error Rate 尽可能低。在另一方面，语气、情绪等超音段信息则可能丢失。

语音合成负责将系统生成的文字表述转换成人类可听（特别是电话信道）中的声音。从拼接合成到基于 HMM 的参数合成（HTS），再到近期不断取得突破的深度学习技术的使用，我们都在追求更高的语音的音质和自然度。语音的自然度既与承载语句的内容相关，也与语境有关。

Google 是在人工智能技术进行长足投入，并且在 SR、TTS、以及其他 AI的任务方面都取得了领先优势。这次我们主要给大家揭开对话管理系统(DM) 的神秘面纱。

三、任务完成为目标的对话系统

首先来看设定的选择 (Fig.1)。Google 选取的是任务型的对话，而非 Free talk，这是一个非常明智的选择主要因为：

目标：Google Duplex 作为一个 Virtual assistant 的终极目标就是成为一个好管家。也就是去完成任务。

难度：Free talk 的难度比 Task-based design要高，考虑到数据收集，策略转换...

Google选择的2个 Demo 任务分别是：为一位女性客户预定美发和在餐厅预定位子。

有了 Task 之后，整个 Picture 就变得清晰了。因为 Task 比较容易再breakdown。这两个任务其实都差不多，需要完成的 CheckList 主要就是时间和人物。 (Fig. 2 & Fig. 3)

是不是很简单呢？是也不是～

四、对话策略

因为在人类的沟通中会出现很多分支细节或者 Misunderstanding（正如，the tower of babel）。所以，这时候就需要很多策略去处理这些情况。

Duplex 之所以让大家觉得自然的一个原因是，相比较别的系统而言，TA更像人类的表达。

我们来看看Google Duplex背后是如何像人类一样 handle 这些情况。

1.被拒绝(Handling Negative Responses)

在第一个 Hair salon 的 Demo 中，Duplex 提出要中午12点去剪头发，但是对方说这个时间不行，最近也要下午1:15。(Fig. 4) 对人类来说，这个是很简单的问题，策略可能是换一个时间，但是对 Virtual assistant 的难点是，人类怎么让 TA 学习。首先要识别和理解“拒绝”(这部分主要是 SR 和 NLU)的工作，然后进入对话管理系统(DM)，选择合适的策略。

我们大多数人应该有过给智能客服打电话或者跟siri讲话的经历。很多时候，机器的回答都比较生涩。比如: Sorry, can you say that again? (ask repeat) ; Sorry, I didn’t understand (notify)。但是，Bohus & Rudnicky (2005) 研究显示，这些策略在很多情况下可能并不是很好的选择。

Duplex 之所以让大家觉得自然主要是相比较别的系统而言，TA 更像人类的表达。

TA 其实并不一定听懂了最接近的是1:15，但是 TA 的 DM 逻辑中一定有多于一种的选择。而且，是从严/specific (12 pm) 到宽/broad (10 am- 12 pm)的“让步”。(Fig. 5)

2. 条件式问答(Handling Subsets)

然而，到终点的道路总不是一条直线。Hairsalon 的员工并没有给出一个是/否的答案，而是给了一个条件式的信息。(Fig. 6)

对人类而言非常简单的任务，对 Duplex 来说，想要成功 handle 这个情况，需要具备3种能力：

具备子条件信息；

查询子条件信息；

回到主线

其中，难点的是第三条。因为这个过程需要系统保存上下文信息(context)，如果回不到主线，就很难完成整个任务。如下图所示。一个自然（像人类）的对话系统，一定需要有保存，提取，合理使用上下文的机制，才能让对话的flow更加自然。(Fig. 7)

到这里，Duplex 就完成了 task 中 time 的部分。这也是这次 demo 的 logic中比较复杂(show off)的板块。

当然，正如之前所述，要通过图灵测试，让 Virtualassistant 听起来很像人，需要整个系统协同工作。

比如，Demo中，duplex “Mm-hmm”的反应就很不像大多数机器。为什么能有这样对反应呢？其实也不难，因为这里完全可以用 okay 之类的词来替代，但是 Duplex 可以通过对 salon员的停顿，结合句子的理解，最终判段用语气词回答会有更好的效果。而这些则需要 SR 和 NLU 的技术来支持实现了。(Fig. 8)

五、展望

毫无疑问，从反响来看，大众喜欢这样的技术，大众期待这些技术可以被更快地应用到方方面面。现实生活中的种种琐事，似乎都可以由于类似Google Assistant 这样的技术而得到部分解决。没有互联网在线服务的商家机构，或者不方便或者不愿意使用在线服务的用户（例如正在开车，或者视力障碍），都可以尝试把任务交给 Digital Assistant，生活确实有望更加轻松、愉快、而有趣。

Assistan 在应用过程中，在我们看来，至少还应该在以下方面取得进展。

实用性

尽管演示非常成功，但现实的问题往往更加复杂，非常可能涉及到很多开发者没有覆盖的问题和情况。当场景涉及到更多的背景知识时（例如给孩子请假），就可能涉及到对孩子请假原因或者表现的信息。一个只具有有限知识的助理可能是很难派上用场的。

扩展性

Google 成功地展示了在两个领域的对话，在这两个领域的两条对话路径上中做到了相当的自然。扩展到其他的领域应该是 Google 计划中的事情。问题在于，扩展的成本有多大，以及是否能保持足够的准确率。

安全性

如果 Assistant 可以帮我打电话解决问题，那么 TA 也可能制造麻烦。如何控制使用过程中的安全性隐患是大规模推广使用的首先问题。

人机合作

如果 Assistant 的使用成为常态，那么如何正确地与 Assistant 交流可能就成了一个需要考虑的问题。正如服务员面对成人和小孩会使用不同的交流方式，对面的接线员在知道打电话的是一个数字助理之后，是否应该调整策略，使得对话更容易成功。

Reference

Bohus, Dan; Rudnicky,Alexander I. (2005): "Sorry, i didn’t catch that! - an investigation ofnon-understanding errors and recovery strategies", In SIGdial6-2005,128-143.

关于HILL

智能学习实验室（HILL, Hujiang Intelligent Learning Lab）

沪江智能学习实验室（HILL）成立于 2017 年，旨在融合教育学、心理学和计算机科学等领域的相关理论和技术，探索人工智能在教育领域的应用场景，推进沪江教育产品的智能化能力。未来也希望将这些能力提供给合作伙伴和整个教育行业。HILL的愿景：Activate Intelligence，Innovate Learning。

发表于: 2018-05-172018-05-17 18:10:28
原文链接：https://kuaibao.qq.com/s/20180517G1EKWK00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

解构：Google打电话幕后的人机对话技术

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐