从这个公式中我们就可以看出, 向左和向右的LSTM是不同的, 也就是说有两个LSTM单元,
?
是输入的意思. 输入的内容是最初始的词向量.
?...是输出内容, 即LSTM在每个位置的 h. h会再用作softmax的输入,来进行词汇选择权重赋予,但是,
?
和
?...是相同的, 意味着这两个单元的输出和输入都是相同的.单层的双向LSTM如下:
?
那么, 这里设定第 j 层的第 k 个位置的forwardLSTM(也就是右向LSTM)输出为
?...这里展示的是一个双层, 即L=2的情况,也就是说, 每个位置的输出在输入到下一位置的同时, 也作为下一层的同一位置的输入.
3.2 ELMo
上面说到了, LSTM的每一层都有自己不同的代表的意义, 因此...of language modeling) 这篇文章中,由于篇幅较长, 见最后的补充部分.
§ 是一个两层的LSTM, 每层的LSTMcell拥有4096个单元(即hidden state) 和512