上一篇介绍了如何用无监督方法来训练sentence embedding,本文将介绍如何利用监督学习训练句子编码器从而获取sentence embedding,包括利用释义数据库PPDB、自然语言推理数据SNLI、以及综合利用监督训练数据和无监督训练数据。
2015发表的论文Towards universal paraphrastic sentence embeddings提出使用PPDB(the Paraphrase Database)来学习通用的sentence embeddings。论文模型的基本流程是输入mini-batch的释义对(<x_1, x_2>)集合(X_b),并通过对(X_b)中的句子进行采样得到(x_1,x_2)对应的负样本(t_1, t_2),将这四个句子通过编码器(编码函数)(g)得到句子编码,然后使用一种 margin-based loss进行优化,损失函数的基本思想是希望编码后的释义对(<x_1,x_2>)能够非常相近而非释义对(<x_1,t_1>)和(<x_2,t_2>)能够有不小于(\delta)的间距。对于全体训练数据(X),目标函数如下,其中(\lambda_c,\lambda_w)为正则化参数,(W_w)为word embedding参数,(W_{w_{initial}}) 为word embedding初始化矩阵,(W_c)是除了(W_w)后的其他参数。
[ \min _ { W _ { c } , W _ { w } } \frac { 1 } { | X | } \left( \sum _ { \left\langle x _ { 1 } , x _ { 2 } \right\rangle \in X } \max \left( 0 , \delta - \cos \left( g \left( x _ { 1 } \right) , g \left( x _ { 2 } \right) \right) + \cos \left( g \left( x _ { 1 } \right) , g \left( t _ { 1 } \right) \right) \right)\right. \ + \max \left( 0 , \delta - \cos \left( g \left( x _ { 1 } \right) , g \left( x _ { 2 } \right) \right) + \cos \left( g \left( x _ { 2 } \right) , g \left( t _ { 2 } \right) \right) \right) \bigg) \ + \lambda _ { c } \left| W _ { c } \right| ^ { 2 } + \lambda _ { w } \left| W _ { w _ { i n i t i a l } } - W _ { w } \right| ^ { 2 } ]
论文实现了6种类型的编码函数(g),具体如下:
论文通过大量实验来对比上述6种编码器的优劣,得到如下结论:
2017年发表的论文Supervised Learning of Universal Sentence Representations from Natural Language Inference Data提出使用自然语言推理(natural language inference, NLI)数据集来学习通用的句子表示。选择NLI任务是因为NLI是一个high-level理解任务,涉及推理句子间的语义关系。模型整体架构如下:
论文对比了7种不同的句子编码器,包括:
论文具体是采用4个上下文向量(u _ { w } ^ { 1 } , u _ { w } ^ { 2 } , u _ { w } ^ { 3 } , u _ { w } ^ { 4 })(multiple views),对应产生4个表示后进行连结作为最终的句子表示。
论文实验表明:BiLSTM+maxpooling作为编码器,训练数据为SNLI,能够训练出比Skip-Toughts和FastSent等无监督方法更好的sentences embedding,在2017年达到state-of-the-art,代码见https://github.com/facebookresearch/InferSent
2018年发表的论文Universal Sentence Encoder在前人研究的基础上,综合利用无监督训练数据和有监督训练数据,进行多任务训练,从而学习一个通用的句子编码器。无监督训练数据包括问答(QA)型网页和论坛,Wikipedia, web news,有监督训练数据为SNLI。多任务模型设计如下图所示,其中灰色的encoder为共享参数的句子编码器。
论文对比了DAN和Transfomer这两种编码器。得出如下结论:
更详细的介绍可以参考论文作者的博客Google AI Blog (中文版)。
我的github仓库https://github.com/llhthinker/NLP-Papers包含了近年来深度学习在NLP各领域应用的优秀论文、代码资源以及论文笔记,欢迎大家star~