干货 | 深度学习和迁移学习在语义匹配模型中的应用

携程技术

发布于 2020-06-09 11:27:08

1.4K0

发布于 2020-06-09 11:27:08

文章被收录于专栏：携程技术

如何正确理解用户的诉求是交互过程的核心，近几年随着机器学习和深度学习的发展，语义匹配模型在学术界也有质的飞跃。本文将结合携程业务应用案例聊聊如何把这些模型落地在旅游场景中，同时结合旅游场景做相应的模型改进。

一、基于深度学习的语义匹配模型

问题匹配模型是机器人进行交互的基础模型，对匹配率的要求较高。传统的做法是直接根据关键词检索或 BM25等算法计算相关性排序，但这种方法的缺点是需要维护大量的同义词典库和匹配规则。后来发展出了潜在语义分析技术（Latent Semantic Analysis，LSA[1,2]），该技术将词句映射到低维连续空间，可在潜在的语义空间上计算相似度。

接着又有了 PLSA（Probabilistic Latent Semantic Analysis）[3]、 LDA（Latent Dirichlet Allocation）[4]等概率模型，它们形成了非常火热的浅层主题模型技术。这些算法使文本的语义表示形式简洁，较好地弥补了传统词汇匹配方法的不足。不过从效果上来看，这些技术都无法完全替代基于字词的匹配技术。

随着深度学习技术的兴起，使用基于神经网络训练的 Word2vec[5]模型进行文本匹配计算引起了人们的广泛关注，而且进一步加强了所得词语向量表示的语义的可计算性。但是无监督的 Word2vec 在句子匹配度计算的实用效果上还存在不足，而且本身没有解决短语、句子的语义表示问题。因此，研究者开始研究句子级别上的神经网络语言模型。

例如，微软研究院（Microsoft Research）提出了 DSSM 模型（Deep Structured Semantic Model）[6]；华为实验室提出了一些新的神经网络匹配模型变体[7,8,9]，如基于二维交互匹配的卷积匹配模型；中科院等研究机构也提出了诸如多视角循环神经网络匹配模型（ MV-LSTM）[10]、基于矩阵匹配的层次化匹配模型（ MatchPyramid）[11]等更加精致的神经网络文本匹配模型。虽然模型的结构非常多，但是底层结构单元基本以全链接层、 LSTM、卷积层、池化层为主（参考论文[12,13,14,15]的做法）。

非交互的语义匹配模型以双向 LSTM为例，句子的特征向量可以利用双向LSTM的最终输出作为表征向量，也可以利用自注意机制来表征，如下图所示。

上图所示是直接利用双向 LSTM的输出拼接成句子向量，自注意机制则利用加权方法计算句子的向量。在实验中我们发现采用自注意机制的模型效果往往优于传统的做法。后面我们还会详细介绍利用复杂的自注意机制来表征句子向量。RNN（循环神经网络）计算的数学表达式如下：

（1）

由公式（ 1）可知，当句子长度过长时， RNN模型的计算性能会有所下降。而 CNN（卷积神经网络）模型在这方面有较大优势， CNN可以采用并行计算方法。Google 于 2017年发表的 Attention is all you need[16]中引入的 transformer模型则打破了采用 RNN和 CNN进行句子 embedding的传统结构。这篇文章的编码器不是采用这两种结构来编码序列关系的，而是采用自注意机制来进行编码的。如下图所示，图中有一个重要的结构：多头注意力。

其数学表达式如下：

最终我们得到的输出是每个词的表征序列，然后可以根据我们的需求得到句子向量，当添加LSTM或 CNN结构时，能够得到更强的句子表征向量。

不论哪种深度学习方法，我们看到最底层的单元结构是word embedding，这是我们进行句子表征的基础。但是前面几种方法都有一个缺陷，即在任何句子中，word embedding都是唯一的，不能随着上下文变化。ELMo[17]模型克服了传统 embedding的这一缺点。ELMo模型通过在大量无监督语料中预训练双向 LanguageModel，其模型结构为 stacked-BiLSTM，然后将该模型用在特定任务中生成带上下文的词语表征。第 k个词的词向量用数学语言表示如下：

式中，sj表示归一化系数；hk,j表示第 j层 BiLSTM的词向量。这样每个词向量都是上下文相关的，相比原来直接使用word embedding效果会有显著提升。

有了句子向量，接下来我们要做的就是如何利用句子向量来进行语义匹配。一般的做法是采用两种任务来描述，即分类任务和排序任务。

基于分类的模型结构的最后一层接的是多类别的 softmax，即输入是用户，分类结果是所属的标准用户类别，如下图所示。根据分类的特点，我们定义的损失函数是交叉熵。

如果把原问题看成排序问题，可以采用三种排序学习的方法来实现，即 pointwise、pair-wise和 list-wise。

在 QA中我们常用的是 point-wise和 pair-wise，如下图所示。其中 point-wise方法直接把问题转换成二分类，先判断当前用户问题是否属于待匹配的问题，再根据隶属概率值得到问题的排序。

而 pair-wise方法学习的是 (UQ,SQ+)和 (UQ,SQ−)之间的排序关系，训练目标是最大化正样本对和负样本对的距离，数学表达式如下：

式中，f(.)表示某种距离度量。

有了句子向量编码器和优化目标，那么基础的语义匹配模型也就形成了。虽然前面介绍了几种常用的编码器，但具体的选择也依赖于对应的场景，如果场景本身的数据量较小或较为简单，采用简单的CNN模型或 RNN模型即可（其中 word embedding建议采用公开训练的）；而复杂场景或数据量较大的场景可以采用层数更复杂的 transformer-encoder结构。

二、几种基于交互的语义匹配模型

区别于关注文本表示学习的思想，交互建模则更加直接地建立文本的匹配模式，利用神经网络捕获文本之间的匹配特征。这在一定程度上更接近文本匹配的本质，通过字词级别、短语级别的匹配，扩展到句子级的整体语义匹配。

目前文本交互形式主要有两种，一种是匹配矩阵，另一种是注意力机制。接下来将分别介绍基于直接交互建模的MatchPyramid模型，以及结合文本表示和文本交互建模的 hCNN和IR-Transformer模型。

2.1 文本交互匹配模型

MatchPyramid模型是由中科院提出的一种文本匹配模型，重新定义了文本之间的交互方式。该模型首先利用点积运算和同或运算构建两个句子之间的匹配矩阵；其次通过类似于图像处理的方式，基于二维卷积、池化操作提取矩阵中的特征；最后基于全连接网络预测句子间的相似度。MatchPyramid模型的整体网络架构如下图所示。

文本匹配模型以字或词作为基础单元， MatchPyramid模型利用最细粒度字词向量计算两两之间的相似度，构建一个二维的匹配矩阵，该矩阵包含所有最细粒度的匹配信息。MatchPyramid模型将匹配特征抽取问题看作图像识别问题，通过多层卷积网络提取语义层面的n-gram特征，这些语义信息在文本匹配任务上具有良好的表现效果。

2.2 电商 QA 模型

HybridCNN模型（简称 hCNN模型）是 2017年由阿里提出的电商 QA模型[18]，考虑到基于 LSTM的模型参数复杂、比较耗时， hCNN模型采用两种不同类型的 CNN作为文本特征的编码器，一方面利用 BCNN模型的一维卷积提取每个句子的表示特征，另一方面采用 MatchPyramid模型的二维卷积提取匹配矩阵的交互特征。最后，这些特征被拼接在一起作为分类层的输入，通过特征的非线性组合预测语义的匹配度，如下图所示。

2.3 交互注意力模型

Transformer模型是由 Google提出的一种机器翻译模型，其最大的特点是利用一种 Multi-head Attention（多头注意力）机制代替 LSTM作为文本表示的特征编码器，具有良好的效果和较高的性能。在多项NLP任务中取得较好效果的 Bert模型就是以 Transformer模型作为基础的单元模块。

我们仍然采用双向 LSTM作为文本表示建模的基础模型，提取句子的上下文特征。考虑到Transformer模型的编码器和解码器不同，在 QA任务中主要利用Multi-head Attention实现从用户问题到标准问题的单向文本对齐，提取文本之间的交互特征。在这种交互操作中，注意力层的输入包含两个文本的信息，使得标准问题的表示中包含用户问题的上下文信息，如下图所示。改进的注意力模型能够在一定程度上缓解基础QA模型在语义交互特征提取中的不足。

三、迁移学习在语义匹配网络中的应用

在智能客服对接各个业务线且需要不定时更新 QA模型的情况下，我们不断探索缩短训练时间和提升准确率的方法。

3.1 迁移学习

通俗来讲，迁移学习就是运用已有的知识来学习新的知识。具体地，在迁移学习中，将已有的知识叫作源域，需要学习的新知识叫作目标域。模型直接从随机初始化参数开始学习的成本比较高，因此研究人员运用已有的相关知识来辅助学习新知识。例如，我们已经会下中国象棋，就可以类比学习国际象棋；我们已经会编写Java程序，就可以类比学习 C#；我们已经学习了英语，就可以类比学习法语等。世间万事万物皆有共性，如何找寻它们之间的相似性，进而利用这种相似性来辅助学习新知识，是迁移学习的核心问题。

在智能客服场景中，不同业务线的业务需求和含义不同，我们需要为每个业务线分别训练 QA模型。但是这并不意味着不同业务线之间完全独立，没有交集。事实上，业务线之间也存在很多共性，首先，对于售后场景，它有与订单、发票等相关的标准Q；其次，对于机票和火车票，由于它们与交通相关，因此均有与取票、改签、选座等相关的标准Q。

在实际实施过程中，客服人员可以通过专门的标注平台进行语料补充任务，不断扩增标注语料，通过语料检查任务，不断提升已标注数据的质量，因此对于较早接入的业务线，如机票、酒店等，我们累积了大量优质的QA对。但对于新接入的业务线，几乎很少甚至没有已标注数据，考虑到深度学习模型需要在一定规模的数据集上才能发挥出较好的效果，但标注数据的积累又是较为耗费人力和时间的过程，为了保证新接入的业务线能够快速达到上线标准，我们尝试使用迁移学习的方法。

目前在现有已标注数据集上，训练一个公共通用模型时，我们不直接将此通用模型用于各个业务线，考虑到不同业务线的差异性，在通用模型的基础上，根据每个业务线的标注数据进行模型微调，微调后的模型更具个性化，如下图所示。实验结果也表明，采用上述方法有助于加快模型的训练速度，并相较于仅单独用该业务线的标注数据训练的模型，模型的准确率也有提升。

3.2 预训练引入外部知识

智能客服面向真实的线上用户，而用户的输入形式不一，并伴随着拼写错误、缩写、俚语、业务领域特定的词汇等，同时新接入的业务线还会不断出现新的词汇和符号，我们无法找到一个词汇库能面面俱到地覆盖上述所有情况，因此在训练过程中，我们采用字符作为模型输入的基本单元。

在输入方面，字符级模型极大地提升了所能处理的词汇量，并且能弹性地处理拼写错误和罕见词问题；在输出方面，由于字符级模型的词汇库很小，所以计算成本更低。因此，以字符作为基本单元能让模型更稳健地处理表达形式丰富多样的用户文本。相关研究表明，字符级模型可以学习非平凡的句法，可以“理解”情绪，能够翻译，可以理解文本中的语义等。尽管如此，字符级模型仍存在一些缺陷，如字符没有语义等。

受训练语料规模的限制，字符级模型是否能理解从未出现或几乎很少出现的字符组合的句子，还无法被验证。因此，我们在字符的基础上，引入外部词向量，与字符一起进行训练，希望有助于提升模型的泛化能力。

目前研究人员开发出了很多开源的词向量数据集，如中文的腾讯AI实验室词向量数据集和英文的斯坦福GloVe 模型 [19]。这些词向量数据集大多是在大规模数据集上训练语言模型过程中生成的，将单词映射到连续的高维空间，使得意思相近的不同单词具有相似的向量表征，词汇量覆盖度高。

结合真实的业务场景，一些热门的标准 Q拥有丰富的标注语料，并且我们在实验过程中发现标注量多的标准Q的模型预测准确率大多很高，而标注量少的标准 Q的模型预测准确率却参差不齐。

客服人员根据线上用户的需求不断新增一些标准Q，新增的标准 Q可能和现有的标准 Q几乎没有语义关联性，这意味着字符级模型可能没有对新增标准 Q做到语义上的理解，而只是根据用户语句和新增标准Q做到字符层面的匹配。

例如，在机票业务线上，标准 Q大多与改签、退票、发票、取票、航变等有关，但是在真实场景中，用户可能还会就行李携带所需要注意的事项等进行提问，因此客服人员会根据用户较关心的问题增加标准Q，如“携带家电家装”，这个标准 Q与现有的标准 Q之间在语义上几乎独立，而用户如果提问“是否能带风扇”，在缺乏标注语料的情况下，模型可能根据字符层面匹配到错误的标准Q上，即使我们后期增加了该标准 Q下的语料，但是由于“家电家装”是一个类实体词，其包含风扇、吹风机、冰箱、彩电等，故如果能将词语之间的相似性与相关性引入模型中，可以提升模型的泛化能力。

我们也在其他业务线上进行了实验，结果表明，引入外部词向量后的模型较仅使用字符作为输入单元的模型，其预测准确率有1%～ 2% 的提升。

四、对语义匹配模型的一些思考

前面我们从多个角度介绍了语义匹配模型的基本结构，以及我们在实践中对语义模型所做的一些改进。但是这些改进完全解决了语义匹配问题吗？答案显然为不是。在实际落地中，我们还会遇到很多问题，而这些问题也让我们从其他角度重新思考对话问答系统应该具备的能力。

4.1 上下文对话建模

对话问答系统与传统的问答系统的一个很大区别就是对话问答系统强调上下文的关系。在实际的用户和机器人对话中，我们发现用户经常针对机器人的回答进行追问，而如果不能把上文信息建模在系统里，机器人的回答往往会让用户无法理解。

针对这一问题，我们也尝试了几种方法来构建机器人的上下文对话能力。非任务型问答系统（Non-goal-driven System）不是面向槽管理的，而是根据用户的会话意图来调整对话过程的。QA的上下文会话管理方法大致可分为两种，一种是 Rule-Based[20]的上下文模型；另一种是 Model-Based[21,22]的上下文模型。

Rule-Based：通过预定义一些先验知识来表示上下文，在会话中不断修改上下文的先验知识并根据上下文记录信息的重新排序。

Model-Based：Model-Based 相对于 Rule-Based的好处就是能够提升泛化能力。研究者[23]利用模型的这种特性，把上下文信息表征在向量里，并通过层次化模型进行学习和推断。该模型主要有三种结构：句子级 encoder模型、 context encoder模型及 response decoder模型。其中 context encoder模型是解决上下文信息的关键，通过在实际的场景中进行试验，发现机器人能够把上文信息充分理解和引入，并且在回答上也较流畅，如下图所示为基于上下文编码的对话模型示例。

4.2 更复杂更强大的模型

随着 NLP的发展和硬件能力的提升，模型可以变得越来越大，如最近很火的BERT模型。这个模型在 33亿文本的数据集上进行预训练，同时BERT模型采用 12层的 transformer编码器结构（ Large版本采用 24层），预训练的模型在不同任务上进行微调，这样的模型在不同的任务上均得到了目前最好的结果。

Stacked模型也被证明在深度学习中能够提升模型效果，如Stacked-LSTM模型。其实这类模型采用的是加深模型的措施，这也印证了模型越深，往往能够取得更好的效果。但越深的模型效果越好的前提是数据集合要足够大，而且能够通过残差网络等方式防止梯度消失等无法更新的问题出现。

4.3 多模型融合

在机器学习方法中，一个重要的分支是多模型融合。单一模型所能解决的场景是有限的，而多个模型能够弥补这一缺点，这也是多模型融合的优势。前面我们花了很大篇幅介绍神经网络模型在QA语义匹配任务上的一些应用，其实在实际应用中这两种模型还需要其他机器学习模型的辅助。

例如，NLP领域的句法分析和依存分析工具辅助解决比较复杂和深度学习模型无法解决的问题；命名实体识别等模型用来对句子进行预处理；其他分类模型参与最终的Q排序打分。只有将多个模型有机地结合在一起才能发挥机器学习的功效。

4.4 多语言问题

在国际化进程中，携程面向多语言的场景也会越来越多，目前如何把现有中文场景的模型迁移到英文、日文、韩文和其他语种场景中也是携程所面临的挑战，甚至遇到更复杂的场景如多语言夹杂混合输入，携程又该如何调整模型。在这种情况下，语料不足的场景会更加凸显。携程结合自身的场景，在多语言化的场景中也已经取得了一定的成果。

【参考文献】

[1] Dennis S，Landauer T，Kintsch W，et al. Introduction to latent semantic analysis[C]//Slides from the Tutorial Givenat the 25th Annual Meeting of the Cognitive Science Society，2003.

[2] Deerwester S，Dumais S T，Furnas G W，et al. Indexing by latentsemantic analysis[J]. Journal of the American Societyfor Information Science，1990，41(6) ：391-407.

[3] Hofmann T. Unsupervised learning byprobabilistic latent semantic analysis[J].Machine Learning，2001，42(1-2)：177-196.

[4] Blei D M，Ng A Y，Jordan M I. Latent dirichlet allocation[J].Journal of Machine Learning Research，2003(3)：993-1022.

[5] Mikolov T，Chen K，Corrado G，et al. Efficient estimation of wordrepresentations in vector space[C]//1st InternationalConference on Learning Representations(ICLR),2013.

[6] Huang P S，He X，Gao J，et al. Learning deep structured semanticmodels for web search using clickthroughdata[C]//Proceedings of the 22nd ACM International Conference on Information & KnowledgeManagement，2013.

[7] Lu Z，Li H. A deep architecture for matching shorttexts[C]//Advances in Neural Information Processing Systems，2013.

[8] Ji Z，Lu Z，Li H. An information retrieval approach toshort text conversation[J].arXiv preprint arXiv：1408. 6988，2014.

[9] Hu B，Lu Z，Li H，et al. Convolutional neural networkarchitectures for matching natural language sentences[C]//Advances inNeural Information Processing Systems,2014.

[10] Wan S X，LanY Y，GuoJ F，et al. A deep architecture for semanticmatching with multiple positional sentencerepresentations[C]//AAAI，2016.

[11] Liang P，Lan Y Y，Guo J F，et al. Text matching as imagerecognition[C]//AAAI，2016.

[12] Feng M，Xiang B，Glass M R，et al. Applying deep learning to answerselection ：a study and an open task[J]. TEEE，2015.

[13] Lai S，Xu L，Liu K，et al. Recurrent Convolutional NeuralNetworks for Text Classification[C]//AAAI，2015.

[14] Santos C，Tan M，Xiang B，et al. Attentive pooling networks[J]. arXivpreprint arXiv：1602. 03609，2016.

[15] Kim Y. Convolutional neural networks forsentence classification[J]. Proceedings of the 2014 Conference on Empirical Methods inNatural Language Processing(EMNLP)，2014.

[16] Vaswani A，et al. Attention is all you need[C]//Advances in Neural Information Processing Systems，2017.

[17] Matthew E P，et al. Deep contextualizedword representations[J]. arXiv preprint arXiv：1802. 05365，2018.

[18] Yu J，Qiu M，Jiang J，et al. Modelling domain relationships fortransfer learning on retrieval-based question answering systems ine-commerce[J]. WSDM，2018.

[19] Pennington J，Socher R，Manning C. Glove ：global vectors for word representation[C]// Proceedings of the 2014conference on empirical methods in natural language processing (EMNLP)，2014.

[20] Langley P，Meadows B，Gabaldon A，et al. Abductive understanding of dialogues aboutjoint activities[J]. Interaction Studies，2014，15(3)：426-454.

[21] Serban I V，Sordoni A，Bengio Y，et al. Building end-to-end dialoguesystems using generative hierarchical neural networkmodels[C]//AAAI，2016.

[22] Sordoni A，Galley M，Auli M，et al. A neural network approach tocontext-sensitive generation of conversational responses[J]. NAACL-HLT，2015，6(5)：196-205.

[23] Tian Z，Huang W，He T，et al. Detecting text in natural imagewith connectionist textproposal network[C]//European Conference on Computer Vision，2016.

注：以上内容节选自《携程人工智能实践》，携程技术团队著。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-06-04，如有侵权请联系 cloudcommunity@tencent.com 删除

NLP 服务