今天上午10点突然接到面试的电话,面完之后感觉不怎么好,还是总结一下吧。
池化层是一个采样的过程。
在 EMLo 中,他们使用的是一个双向的 LSTM 语言模型,由一个前向和一个后向语言 模型构成,目标函数就是取这两个方向语言模型的最大似然。 前向部分
反向部分
合起来部分如下,也就是损失函数
在进行有监督的 NLP 任务时,可以将 ELMo 直接当做特征拼接到具体任务模型的 词向量输入,具体来说就是把这个双向语言模型的每一中间层进行一个求和得到动态的词向量表示。 提取词向量的过程如下:对于第K个Token,使用L层的双向ELMo可以得到的表示如下:
对于下游任务来说,得到表示就是各层双向LSTM的表示的加权和