学习目标
掌握Transformer相比于RNN/LSTM的优势和背后的原因.
掌握Transformer架构的并行化是如何进行的....Transformer架构的并行化过程
2.1 Transformer架构中Encoder的并行化
首先Transformer的并行化主要体现在Encoder模块上....但是从另一个角度看, 我们真实计算注意力分布的时候, 采用的都是矩阵运算, 也就是可以一次性的计算出所有token的注意力张量, 从这个角度看也算是实现了并行, 只是矩阵运算的"并行"和词嵌入的"并行"...但是在预测阶段, 如果预测的结果语句总共有20个token, 则需要重复处理20次循环的过程, 每次的输入添加进去一个token, 每次的输入序列比上一次多一个token, 所以不认为是并行处理....Encoder模块在self-attention层, 因为各个token之间存在依赖关系, 无法独立计算, 不是真正意义上的并行化.