聊天机器人是人工智能的一个子领域,专注于在人与计算机之间产生自然而无缝的对话。近年来,我们在这方面看到了几项惊人的进步,自动语音识别(ASR),文本到语音(TTS)和意图识别方面的重大改进,以及Amazon Echo等语音助手设备的火箭发展和谷歌之家,估计2018年家庭中有近1亿台设备。
但是,我们距离科幻小说中所承诺的流畅的人机对话还有很长的路要走。以下是我们在未来十年应该看到的一些关键进展,这些进展可以使我们更接近这一长期愿景。
机器学习,特别是深度学习,在过去几年中已经成为AI领域中非常流行的技术。它已经推动了面部识别,语音识别和对象识别等领域的重大进步,使许多人相信它将解决聊天机器人的所有问题。但是,实际上它只是我们工具箱中的一个有价值的工具。我们需要其他技术来管理有效的人机对话的所有方面。
机器学习特别适合于涉及在大型数据库中查找模式的问题。或者作为图灵奖得主Judea Pearl的简洁说道,机器学习基本上解决了曲线拟合问题。聊天机器人中有几个问题可以很好地映射到这种类型的解决方案,例如语音识别和语音合成。该技术也已应用于意图识别(采用人类语言的文本句子并将其转换为用户意图或愿望的高级描述)并取得了很大成功,尽管使用此技术捕获意义时存在一些限制。自然语言,本质上是有状态的,对语境敏感,而且往往含糊不清。
但是,计算机对话中肯定存在一些不太适合机器学习的问题。将人机对话视为由两部分组成:
最近的注意力主要集中在第一部分,但是在发电方面仍存在许多挑战,而这些挑战往往不适合机器学习,因为响应生成不仅仅是收集和分析批次的产物。数据的。维持可信,持续和有状态的对话的挑战将需要在未来几年更多地关注这些问题的NLG和对话管理部分。
今天的聊天体验可以非常简单和受限制。为了超越这些限制,我们需要支持更高保真度的对话。实现这一目标有几个部分,包括:
作为技术专家,我们经常被驱使尝试以计算方式解决每个问题。然而,重要的是要注意一些领域,例如游戏和娱乐或销售和营销,可能总是希望精细地制作计算机响应的声音和个性以匹配他们的品牌。此外,最近已经注意到,尝试生成完全自动化的自然语言生成可能不是最佳前进方式,因为最自然的人类对话不是重复大量先前对话的结果,而是通过考虑当前上下文形成的,独特的双方的聊天记录,以及一系列更广泛的聊天技巧和惯例。
这些论点表明,将人类置于初始对话生成的循环中可能实际上是一件好事,而不是我们必须寻求根除的东西。当我在皮克斯的Finding Nemo工作时,一个重大的技术挑战是模拟水的外观和行为。但比解决潜在的物理模拟问题更困难的是水必须是人类可导向的:电影的导演必须能够要求改变水在场景中的外观和反应。同样的限定词在聊天机器人领域也是如此:自然语言生成解决方案必须允许人类“创意总监”输入,能够控制合成角色的语气,风格和个性。
今天,这些创造性的输入必然处于人类写作层面,系统可以识别每个上下文的个体响应,并定义对话应该如何流入下一个问题或主题。这就是目前所有计算机对话体验的工作方式。我们似乎不太可能在未来几年完全消除这种人在循环中,因此当我们展望未来时,我们将希望建立支持更具可扩展性和广泛机制的方法来定义一个人的声音和音调。例如,计算机响应能够在更抽象的层面上定义其关键特征。
HBO系列Westworld在展示这种世界观方面做得非常出色。人工“宿主”显然非常复杂,并且在反应和行为方面往往与血肉之躯无法区分。然而,这是通过在“叙事”部门中让许多作家定义每个主持人的内容及其各种高级人格特征来实现的。创意设计师可以使用强大的可视化创作工具调整这些因素。
在未来几年,该领域可以从灵活的创作工具的开发中受益,使得对话编写者能够像Photoshop赋予艺术家或Final Cut Pro赋予权力的视频创作者一样的方式。
结合更丰富的语言生成和对话管理系统工具,更高保真度的体验以及更好地在循环中使用人类将产生更好的内容,并最终将我们带入一个充满愉快和无缝计算机对话体验的世界。
Martin Reddy是语音技术公司PullString的联合创始人兼首席技术官。
领取专属 10元无门槛券
私享最新 技术干货