作者 | Adherer 编辑 | NewBeeNLP
面试锦囊之知识整理系列,持续更新中
以下是关于ELMo的若干问题整理记录,自己在网上找了一些问题,对每个问题收集了一些资料,并做了整理,有些问题还写了一些自己的看法,可能会有纰漏,甚至还有错误,还请大家赐教?
ELMO采用了典型的两阶段过程,
第一阶段模型总览:
ELMo第一阶段,来源张俊林老师文章[2]
上图展示的是其预训练过程,它的网络结构采用了双层双向LSTM,其中单词(token)特征这一块采用的是单词的embedding(是否是预训练好的论文中没有告知)或者采用字符卷积得到其embedding表示
(论文原文中说的是:via token embeddings or a CNN over characters,字符卷积可以参考论文:Character-Aware Neural Language Models[1])
目前语言模型训练的任务目标是根据单词
的上下文去正确预测单词
,
之前的单词序列Context-before称为上文,之后的单词序列Context-after称为下文。
上图中左端的前向双层LSTM代表正方向编码器,输入的是从左到右顺序的除了预测单词外
的上文Context-before;右端的逆向双层LSTM代表反方向编码器,输入的是从右到左的逆序的句子下文Context-after;每个编码器的深度都是两层LSTM叠加。
「需要注意的是上述残差结构是在训练深层LSTM网络时常用的结构,简单做法就是将LSTM层的输入加到输出上,在官方tensorflow源码中token的embedding没有加到第一层LSTM的输出上」
使用这个网络结构利用大量语料做语言模型任务就能预先训练好这个网络,如果训练好这个网络后,输入一个新句子
,句子中每个单词都能得到对应的三个Embedding:
也就是说,ELMO的预训练过程不仅仅学会单词的Word Embedding,还学会了一个双层双向的LSTM网络结构,而这两者后面都有用。
第二阶段模型总览:
ELMo第二阶段,来源张俊林老师文章[2]
以QA问题为例,展示下游任务如何利用预训练好的embedding。
对于上图所示下游任务QA中的回答句子Y来说也是如此处理。因为ELMO给下游提供的是每个单词的特征形式,所以这一类预训练的方法被称为"Feature-based Pre-Training"。
ELMo的训练过程实际上指的是其第一阶段的预训练过程,第一阶段实际上就是在训练一个双向语言模型,假设给定一个序列,该序列含有
个token
,那么:
(Context-before)的情况下对token
的概率建模来计算序列出现的概率:
(Context-after)的情况下对token
的概率建模来计算序列出现的概率:
因此,由于ELMo结合了前后向语言模型,故其目标是同时最大化前后向语言模型的对数似然:
其中:
为token表示的参数(前后向语言模型共享)
为softmax分类的参数(前后向语言模型共享)
分别表示前后向语言模型LSTM层的参数
综上所述,ELMo的训练过程即为一个前后向语言模型的训练过程,通过上述描述则一目了然,而其损失函数即为简单的分类损失,取决于源码实现,不同源码中的实现可能略有不同。
ELMo训练好了该如何使用实际上指的是其第一阶段的预训练过程训练完毕,下游任务如何利用预训练好的embedding,在问题1中已经有了比较详细的解读,在该问题则对其进行公式化的说明。首先由1可知,对于序列中的每个token,一个L层的双向语言模型就会得到其「2L+1个表示」,即为:
其中,
为token的表示(即
),
为每个双向LSTM层得到的表示。
「需要注意的是,这里是将整个句子输入到双向语言模型(这里用的是双向LSTM网络)中,正向和反向LSTM网络共享token embedding的输入,源码中token embedding、正向、反向LSTM的hidden state均为512维度,一个长度为nsentences的句子,经过ELMo预训练网络,最后得到的embedding的维度为:(n_sentences, 3, max_sentence_length, 1024)」
那么下游任务如何利用这些表示呢?下游任务将所有表示都利用起来,并给他们分配权重,即为:
其中,
是经过softmax归一化之后的权重,标量参数
允许任务模型缩放整个ELMo向量。需要注意的是,
是一个超参数,实际上这个参数是经验参数,一定程度上能够增强模型的灵活性。总结起来,整个为下游任务获取embedding的过程即为:
下游任务获取embedding
ELMo利用了深度上下文单词表征,该模型的优点:
总结来说,通过上述结构,ELMo能够达到区分多义词的效果,每个单词(token)不再是只有一个上下文无关的embedding表示。
那么ELMo为什么有效呢?我认为主要原因有以下几点:
在ELMo第一阶段训练完成之后,将句子输入模型中在线提取各层embedding的时候,每个单词(token)对应两边LSTM网络的对应节点,那两个节点得到的embedding是动态改变的,会受到上下文单词的影响,周围单词的上下文不同应该会强化某种语义,弱化其它语义,这样就达到区分多义词的效果了。需要注意的是,第一个单词和最后一个单词也是有上下文的,譬如说第一个单词的上文是一个特殊的token <BOS>,下文是除第一个单词外的所有单词,最后一个单词的下文是一个特殊的token <EOS>,上文是除最后一个单词外的所有单词。
论文中也举例说明了这个问题,图示如下:
多义词问题,来源张俊林老师文章[2]
上图对于Glove训练出的word embedding来说,多义词比如play,根据它的embedding找出的最接近的其它单词大多数集中在体育领域,这很明显是因为训练数据中包含play的句子中体育领域的数量明显占优导致;而使用ELMo,根据上下文动态调整后的embedding不仅能够找出对应的“演出”的相同语义的句子,而且还可以保证找出的句子中的play对应的词性也是相同的,这是超出期待之处(当然也可能是因为论文中给出的例子都是比较好的例子,不过ELMo这样的做法是值得学习的)。
因为通过ELMo模型,句子中每个单词都能得到对应的三个Embedding:
「需要注意的是,这里得到的结论是通过实验验证的,是在这样的模型设计中,能够得到上述结论,可能不同模型结构,得到的结论又是不一样的。」
ELMo把三种不同的向量叠加的意义主要体现在以下两个点:
这样做能够起到区分多义词的效果,如问题5,而且在论文展示的6个任务中都取得了SOTA的效果。参考:[2][3][4][5]
[1]
Character-Aware Neural Language Models: https://arxiv.org/abs/1508.06615
[2]
从Word Embedding到Bert模型—自然语言处理中的预训练技术发展史: https://zhuanlan.zhihu.com/p/49271699
[3]
The Illustrated BERT, ELMo, and co. (How NLP Cracked Transfer Learning): http://jalammar.github.io/illustrated-bert/
[4]
ELMo-TensorFlow源码: https://github.com/allenai/bilm-tf
[5]
机器学习之路: https://zhuanlan.zhihu.com/Adherer-machine-learning
- END -