语义文本相似性研究进展

技术前沿

原文:Yinfei Yang GoogleAI

编译:萝卜兔

人工智能领域并不缺少雄心壮志。今年1月,谷歌首席执行官Sundar Pichai 在接受采访时说,“人工智能比电或火的出现更深刻”。

近年来,基于神经网络的自然语言理解研究,特别是在学习语义文本表示方面,取得了很大的进展,可以实现智能写作和书籍交流等真正新颖的产品。它还可以帮助提高在训练数据量有限的各种自然语言任务上的性能,例如从少至100个标记示例构建强文本分类器。

下面,我们将讨论两篇论文,关于Google语义表示研究的最新进展,以及两个可在TensorFlow Hub上下载的新模型,我们希望开发人员将使用它们来构建新的令人兴奋的应用程序。

语义文本相似性

在“从会话中学习语义文本相似性”论文中,我们提出了一种新的学习语义文本相似性的句子表示方法。理论上,如果句子有相似的回复,它们在语义上是相似的。比如,“How old are you?”和“What is your age?”这两个问题都是关于年龄的,具有类似的回复,比如“I am 20 years old”。相比之下,“How are you?”和“How old are you”包含几乎相同的单词,但是它们的含义完全不同,当然,它们对应的回复也天差地别。

句子的回复如果一样,那么他们很可能具有相同的意思,相反,它们语义可能差别很大

在本研究中,我们的目标是通过句子的回复分类任务来学习语义相似性:

给定会话输入,我们希望从一批随机选择的回复中分类正确的回复。但是,最终目标是训练一个模型,该模型可以返回表示各种自然语言关系(包括相似性和相关性)的编码。通过添加另一个预测任务(在本例中为SNLI蕴涵数据集)并强制两者通过共享编码层,这使得我们在相似性测试上获得了更好的性能,例如STSBenchmark (句子相似性基准)和CQA任务B (问题/问题相似性任务)。这是因为逻辑蕴涵与简单等价有很大不同,它为学习复杂的语义表示提供了更多的信号。

对于给定的输入,分类被认为是针对候选回复的排序问题

通用句子编码器

在“通用句子编码器”论文中,我们引入了一个模型,该模型通过添加更多的任务来扩展上述多任务训练,并与一个类似跳跃思维的模型联合训练它们,来预测围绕给定文本选择的句子。我们是利用一个共享编码器来驱动预测任务,而不是原始跳跃思想模型中的编码器-解码器结构。这样,在保持情感和语义相似性分类等多种迁移任务性能的同时,大大减少了训练时间。其目的是提供一种能够支持尽可能广泛的各种应用的单个编码器,包括释义检测、相关性、聚类和自定义文本分类。

通过TensorFlow Hub Universal Sentence Encoder的输出进行成对语义相似度比较

如本文所述,通用语句编码器模型的一个版本使用深度平均网络( DAN )编码器,而第二个版本使用更复杂的自参与网络架构Transformer。

如“通用句子编码器”中所描述的多任务训练,各种任务和任务结构由共享编码层/参数连接(灰色的框)

该模型在多种情感和相似性分类任务中的表现优于简单的DAN模型,对于短句子的表现只稍微慢一些。然而,使用Transformer模型的计算时间随着句子长度的增加而显著增加,而DAN模型的计算时间随着句子长度的增加而保持几乎恒定。

新模型

除了上述通用语句编码器模型之外,我们还在TensorFlow Hub上共享两个新模型:通用语句编码器-大型和通用语句编码器- Lite。这些在Tensorflow上预训练模型,它们返回可变长度文本输入的语义编码。这些语义编码可用于自然语言文本的语义相似性度量、相关性、分类或聚类。

大型模型使用我们第二篇论文中介绍的Transformer编码器进行训练,它以牺牲速度和大小为代价,针对需要高精度语义表示和最佳模型性能的场景。

Lite模型是在句子片段上训练的,这样显著减小了词汇量,这使得模型小,该模型主要针对内存和CPU等资源有限的情况,例如基于设备或浏览器实现。

我们相信这只是一个开始,还有很多重要的问题需要研究解决,例如将技术扩展到更多的语言上(上述讨论的模型目前支持英语)。我们还希望进一步开发这一技术,以便它能够理解段落甚至是文档级别的文本,如果它可以实现这些任务了,那就可以制造真正的“通用”编码器了。

https://ai.googleblog.com/2018/05/advances-in-semantic-textual-similarity.html

论文推荐

Learning Semantic Textual Similarity from Conversations

https://arxiv.org/abs/1804.07754

Universal Sentence Encoder

https://arxiv.org/abs/1803.11175

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180525A078JA00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券